昨日,素有 “歐洲 DeepSeek” 之稱的 Mistral 3 上線,這是 Mistral 模型的下一代產品。
Mistral 3 包含三個先進的小型密集模型:140 億、80 億和 30 億。Mistral Large 3 是 Mistral 迄今為止功能最強大的模型,它是一款稀疏混合專家模型,使用 410 億個活躍參數和 6750 億個總參數進行訓練。
官方表示,所有模型均以 Apache 2.0 許可證發布,以多種壓縮格式開源模型,賦能開發者社區,并通過分布式智能將人工智能帶入千家萬戶。
Mistral Large 3:最先進的開放式模型
Mistral Large 3 是目前世界上最好的開放權重模型之一,它基于 NVIDIA 的 3000 個 H200 GPU 訓練而成。
Mistral Large 3 還是 Mistral 自開創性的 Mixtral 系列以來推出的首個專家混合模型,該模型在通用提示上的表現與市面上最好的指令調優開放權重模型不相上下,展現出卓越的圖像理解能力,并在多語言對話(例如,非英語/中文)方面取得了一流的性能。
Mistral Large 3 在 在 OSS 非推理模型類別中排名第 2,在所有 OSS 模型中排名第 6。
從 Large 3 到 Ministral 3,均在 NVIDIA Hopper GPU 上進行訓練,利用高帶寬 HBM3e 內存來處理前沿規模的工作負載。
NVIDIA 為整個 Mistral 3 系列模型啟用了對 TensorRT-LLM 和 SGLang 的高效推理支持,從而實現高效的低精度執行。
針對 Large 3 的稀疏 MoE 架構,NVIDIA 集成了最先進的 Blackwell 注意力機制和 MoE 內核,增加了對預填充/解碼解耦服務的支持,并與 Mistral 合作開發了推測性解碼,使開發者能夠在 GB200 NVL72 及更高級別的設備上高效地處理長上下文、高吞吐量的工作負載。
Ministral 3:最佳性價比
針對邊緣計算和本地應用場景,研究團隊發布了 Ministral 3 系列,該系列提供三種模型尺寸:3B、8B 和 14B 參數。
Ministral 3 在所有開源軟件模型中實現了最佳的性價比。在性能與同類模型持平甚至更勝一籌的同時,生成的 tokens 數量通常少一個數量級。
此外,Ministral 推理變體可以思考更長時間,從而在其重量級別中產生最先進的準確性——例如,14B 變體在 AIME '25 上達到了 **85%**。
結論
Mistral 3 以開源模型的透明度和控制力,實現閉源水平的結果。
同時,它構建能夠理解 40 多種原生語言的文本、圖像和復雜邏輯的應用程序。型號范圍從 30 億延伸至 6750 億參數。
模型還兼備自主性和適應性,可精確部署用于編碼、創意協作、文檔分析或工具使用工作流程。
參考資料:
https://mistral.ai/news/mistral-3
https://x.com/MistralAI/status/1995872766177018340