剛剛,小米音頻隆重推出 Xiaomi-MiMo-Audio 模型。
這是首個原生端到端語音大模型,小米團隊將預訓練時間擴展至超過 1 億小時,在各種音頻任務中實現了小樣本泛化。
MiMo-Audio-7B-Base 在語音智能和音頻理解基準測試中均達到了開源模型中的 SOTA 性能。除了標準指標之外,MiMo-Audio-7B-Base 還可以泛化到其訓練數據中缺失的任務,例如語音轉換、風格遷移和語音編輯。
MiMo-Audio-7B-Base 還展示了強大的語音延續能力,能夠生成高度逼真的脫口秀、朗誦、直播和辯論。在訓練后階段,我們構建了豐富的指令調整語料庫,并將思維機制引入音頻理解和生成。MiMo-Audio-7B-Instruct 在音頻理解基準、口語對話基準和指令-TTS 評測中均取得了開源 SOTA 的成績,接近甚至超越了閉源模型。
評估顯示,MiMo-Audio 在音頻理解方面優于 Gemini-2.5-Flash,在復雜推理方面已擊敗 GPT-4o-Audio。
擁有 12 億參數的標記器
為了讓生成的分詞應該能夠適應下游的語言建模,小米團隊還推出了 MiMo-Audio-Tokenizer。這個擁有 12 億參數的模型采用基于 Transformer 的架構,包含一個編碼器、一個離散化層和一個解碼器,以 25Hz 的幀率運行,并通過 8 層殘差矢量量化 (RVQ) 每秒生成 200 個分詞。
通過整合語義和重構目標,團隊基于一個 1000 萬小時的語料庫從零開始訓練該模型,在重構質量方面取得了卓越的性能,并促進了下游語言建模。
聯合建模提高速率
MiMo-Audio 是一個統一的生成式音頻語言模型,可對文本和音頻 token 序列進行聯合建模。該模型接受文本和音頻 token 作為輸入,并自回歸預測文本或音頻 token,從而支持涉及任意文本和音頻模態組合的廣泛任務。
為了提高 token 速率,達到類似每秒 200 個 token 序列的建模效率,并緩解語音和文本模態之間的長度差異,團隊采用了一種結合塊編碼器、LLM 和塊解碼器的全新架構。塊編碼器將四個連續時間步長的 RVQ token 聚合成單個塊,并將序列下采樣為 LLM 的 6.25Hz 表示。隨后,塊解碼器自回歸生成完整的 25Hz RVQ token 序列。
模型表現
通過將 MiMo-Audio 的預訓練數據擴展到超過一億小時,團隊觀察到在各種音頻任務中出現的少量學習能力。
在訓練后階段,團隊使用了豐富的指令調整語料庫,并將思維機制引入音頻理解和生成。MiMo-Audio 在音頻理解基準(MMSU、MMAU、MMAR、MMAU-Pro)、口語對話基準(Big Bench Audio、MultiChallenge Audio)以及指令-TTS 評測中均取得了開源 SOTA 的成績,接近甚至超越了閉源模型
表現結果如下。可以看出,MiMo-Audio 在 MMAU(語音、聲音、音樂)的測試中以 82.58 第一名的成績超越了 Gemini-2.5 Flash、Kimi-Audio-Instruct 等一系列模型。
MiMo-Audio 還展示了跨多個領域的全面口語對話能力,能夠通過深入理解和適當回應進行自然對話。
以下地址可觀看 MiMo-Audio 的對話:
情商與安全:圖靈測試
情報與指令遵循:雞兔同籠問題
漢語水平與方言:解釋'意思意思'
外語能力:三種語言的問候和告別
預訓練:語音延續和情境學習
MiMo-Audio 在無需參數更新的情況下,可以僅依賴上下文語音示例完成語音到語音生成任務。功能包括:風格轉換、語音轉換、語音翻譯、語音編輯。
情境學習演示
由于其大規模的預訓練、廣泛的數據集曝光和精心設計的監督微調(SFT)數據,MiMo-Audio 模型表現出強大的音頻理解能力以及一定程度的推理能力。
其中包括全面的音頻字幕功能,可提供跨各個領域和場景的音頻內容的詳細描述。
音頻推理功能,能夠深入理解和分析復雜的音頻內容,包括上下文識別和邏輯推理。
長音頻理解功能,能夠以持續的注意力和連貫的解釋來處理和分析較長的音頻序列