小米又有新動作：開源首個原生端到端語音大模型

2025-11-17 15:54

剛剛，小米音頻隆重推出 Xiaomi-MiMo-Audio 模型。

這是首個原生端到端語音大模型，小米團隊將預訓練時間擴展至超過 1 億小時，在各種音頻任務中實現了小樣本泛化。

MiMo-Audio-7B-Base 在語音智能和音頻理解基準測試中均達到了開源模型中的 SOTA 性能。除了標準指標之外，MiMo-Audio-7B-Base 還可以泛化到其訓練數據中缺失的任務，例如語音轉換、風格遷移和語音編輯。

MiMo-Audio-7B-Base 還展示了強大的語音延續能力，能夠生成高度逼真的脫口秀、朗誦、直播和辯論。在訓練后階段，我們構建了豐富的指令調整語料庫，并將思維機制引入音頻理解和生成。MiMo-Audio-7B-Instruct 在音頻理解基準、口語對話基準和指令-TTS 評測中均取得了開源 SOTA 的成績，接近甚至超越了閉源模型。

評估顯示，MiMo-Audio 在音頻理解方面優于 Gemini-2.5-Flash，在復雜推理方面已擊敗 GPT-4o-Audio。

擁有 12 億參數的標記器

為了讓生成的分詞應該能夠適應下游的語言建模，小米團隊還推出了 MiMo-Audio-Tokenizer。這個擁有 12 億參數的模型采用基于 Transformer 的架構，包含一個編碼器、一個離散化層和一個解碼器，以 25Hz 的幀率運行，并通過 8 層殘差矢量量化 (RVQ) 每秒生成 200 個分詞。

通過整合語義和重構目標，團隊基于一個 1000 萬小時的語料庫從零開始訓練該模型，在重構質量方面取得了卓越的性能，并促進了下游語言建模。

聯合建模提高速率

MiMo-Audio 是一個統一的生成式音頻語言模型，可對文本和音頻 token 序列進行聯合建模。該模型接受文本和音頻 token 作為輸入，并自回歸預測文本或音頻 token，從而支持涉及任意文本和音頻模態組合的廣泛任務。

為了提高 token 速率，達到類似每秒 200 個 token 序列的建模效率，并緩解語音和文本模態之間的長度差異，團隊采用了一種結合塊編碼器、LLM 和塊解碼器的全新架構。塊編碼器將四個連續時間步長的 RVQ token 聚合成單個塊，并將序列下采樣為 LLM 的 6.25Hz 表示。隨后，塊解碼器自回歸生成完整的 25Hz RVQ token 序列。

模型表現

通過將 MiMo-Audio 的預訓練數據擴展到超過一億小時，團隊觀察到在各種音頻任務中出現的少量學習能力。

在訓練后階段，團隊使用了豐富的指令調整語料庫，并將思維機制引入音頻理解和生成。MiMo-Audio 在音頻理解基準（MMSU、MMAU、MMAR、MMAU-Pro）、口語對話基準（Big Bench Audio、MultiChallenge Audio）以及指令-TTS 評測中均取得了開源 SOTA 的成績，接近甚至超越了閉源模型

表現結果如下。可以看出，MiMo-Audio 在 MMAU（語音、聲音、音樂）的測試中以 82.58 第一名的成績超越了 Gemini-2.5 Flash、Kimi-Audio-Instruct 等一系列模型。

MiMo-Audio 還展示了跨多個領域的全面口語對話能力，能夠通過深入理解和適當回應進行自然對話。

以下地址可觀看 MiMo-Audio 的對話：

情商與安全：圖靈測試

情報與指令遵循：雞兔同籠問題

漢語水平與方言：解釋'意思意思'

外語能力：三種語言的問候和告別