“歐洲 DeepSeek”發布 Mistral 3 系列模型

2025-12-04 17:53

昨日，素有 “歐洲 DeepSeek” 之稱的 Mistral 3 上線，這是 Mistral 模型的下一代產品。

Mistral 3 包含三個先進的小型密集模型：140 億、80 億和 30 億。Mistral Large 3 是 Mistral 迄今為止功能最強大的模型，它是一款稀疏混合專家模型，使用 410 億個活躍參數和 6750 億個總參數進行訓練。

官方表示，所有模型均以 Apache 2.0 許可證發布，以多種壓縮格式開源模型，賦能開發者社區，并通過分布式智能將人工智能帶入千家萬戶。

Mistral Large 3：最先進的開放式模型

Mistral Large 3 是目前世界上最好的開放權重模型之一，它基于 NVIDIA 的 3000 個 H200 GPU 訓練而成。

Mistral Large 3 還是 Mistral 自開創性的 Mixtral 系列以來推出的首個專家混合模型，該模型在通用提示上的表現與市面上最好的指令調優開放權重模型不相上下，展現出卓越的圖像理解能力，并在多語言對話（例如，非英語/中文）方面取得了一流的性能。

Mistral Large 3 在在 OSS 非推理模型類別中排名第 2,在所有 OSS 模型中排名第 6。

從 Large 3 到 Ministral 3，均在 NVIDIA Hopper GPU 上進行訓練，利用高帶寬 HBM3e 內存來處理前沿規模的工作負載。

NVIDIA 為整個 Mistral 3 系列模型啟用了對 TensorRT-LLM 和 SGLang 的高效推理支持，從而實現高效的低精度執行。

針對 Large 3 的稀疏 MoE 架構，NVIDIA 集成了最先進的 Blackwell 注意力機制和 MoE 內核，增加了對預填充/解碼解耦服務的支持，并與 Mistral 合作開發了推測性解碼，使開發者能夠在 GB200 NVL72 及更高級別的設備上高效地處理長上下文、高吞吐量的工作負載。