近日,由字節跳動、香港大學團隊聯合開發的Mini-o3模型正式上線。這個號稱Open AI o3 視覺推理平替的視覺語言模型(VLM),在訓練限制輪數僅6輪的情況下,能在測試階段將思考輪數擴展到數十輪。
Mini-o3的核心創新為Visual Probe挑戰性問題數據集構建、迭代數據收集管道以及超輪次掩碼策略,支持深度優先搜索等多樣化推理模式。測試時,交互輪次可擴展至 32 輪以上,準確率也會隨著輪次增加顯著提升。
目前,Mini-o3在 VisualProbe、VBench、HR-Bench、MME-Realworld 等基準上取得了 7B 量級的最佳成績。訓練代碼、模型權重以及包含 4,500 條數據的 Visual Probe 數據集也已開源。
訓練數據收集
Mini-o3通過提出一種有效的多模態智能體訓練方案來推進交互深度和推理模式。該智能體支持多輪圖像工具使用,從而提高了視覺基礎任務的適應性和推理多樣性。
訓練過程包括兩個階段:
- 監督微調(SFT):在數千個涉及圖像工具使用的多輪軌跡(即冷啟動數據)上對模型進行微調,使模型生成具有多樣化和魯棒推理模式的有效軌跡。
- 具有可驗證獎勵的強化學習(RLVR):使用可驗證的、語義感知的獎勵,采用外部 LLM 作為評判者來計算獎勵信號。總共設置 6 個交互輪次和 32K 上下文長度的上限。
團隊構建了一個具有挑戰性的視覺搜索數據集——Visual Probe 數據集。它包含用于訓練的 4,000個視覺問答集和用于測試的 500個問答集。 VisualProbe 的特點是:
- 小目標;
- 大量干擾物;
- 高分辨率圖像
為了生成高質量、多樣化的多輪軌跡,Mini-o3只保留最終答案正確的軌跡。遵循此過程,團隊從 6 個示例中收集了大約 6,000 條冷啟動軌跡。
超輪次掩碼策略
為了增加每個環節中可行的輪次數,團隊將每張圖像的最大像素數減少至 200 萬。這種簡單的調整允許在相同的上下文預算內容納更多輪次,提高了長視野問題的解決率。
為了防止模型陷入“提前回答”策略,團隊還提出了一種超輪次掩碼技術,其目標是避免對“未完成”的回答進行懲罰。
這項技術削減了之前“屏蔽”未完成回答的損失,鼓勵模型繼續探索。
值得注意的是,盡管在訓練期間采用了相對較小的翻轉輪次上限,但測試時間軌跡可以延伸至數十輪,準確率也會隨著輪次增加而提升。因此,輪次掩碼對于實現測試時間在交互翻轉次數方面的擴展優勢至關重要。
實踐結果
本研究核心發現,盡管Mini-o3(藍線)訓練時僅設定6輪上限,但在測試中,隨著交互輪次上限從4增至32輪,其在VisualProbe-Hard數據集上的準確率從38%持續升至48%。這表明模型真正學會了“思考”,且思考越充分,效果越好。相比之下,未采用Over-turn Masking策略的模型(紅線)在6輪后性能便停止增長。
在多項視覺搜索基準測試中,Mini-o3均刷新了最新的SOTA成績,顯著超越現有開源模型。尤其是在最具挑戰性的 VisualProbe-Hard 任務上,Mini-o3的準確率高達 48.0%,相比此前表現最佳的 DeepEyes(35.1%) 提升明顯。
消融實驗結果進一步印證了Mini-o3的創新設計:無論移除 Visual Probe 數據集、冷啟動 SFT,還是 Over-turn Masking,模型性能都會大幅下降。
結語
Mini-o3研究團隊作者一共6人,其中賴昕和Junyi Li是項目的共同一作。
公開資料顯示,賴昕是字節跳動的研究員,主攻大型多模態模型。他本科就讀于哈爾濱工業大學,后獲得香港中文大學博士學位。博士期間,他作為第一作者參與的Step-DPO項目在MATH和GSM8K分別獲得了70.8%和94.0%的準確率。
Junyi Li曾就讀于華中科技大學,目前是香港大學的博士,參與字節研究工作。2024年,他作為第一作者的PartGLEE項目被ECCV接收。
在Mini-o3的工作中,團隊研究了視覺語言模型(VLMs)的多輪基于圖像的工具使用。他們開發了一個三管齊下的方法:
- 首先構建VisualProbe——一個包含訓練和評估任務的挑戰性視覺搜索數據集;
- 其次通過利用現有VLM的上下文學習能力來收集冷啟動數據;
- 最后通過超輪次掩碼策略增強了原始GRPO,促進了測試時的輪次擴展
研究團隊表示,Mini-o3的技術方案能為多輪交互式多模態模型的開發與強化學習應用提供實際指導。