今天,Google DeepMind 隆重推出 SIMA 2,通過整合 Gemini 模型的先進功能,從一個指令執行者進化為一個互動游戲伙伴。
SIMA 2 不僅能夠在虛擬世界中執行人類語言指令,現在還能思考自身目標、與用戶互動,并隨著時間的推移不斷自我改進。
官方表示,這是朝著 AGI 方向邁出的重要一步,對機器人技術的未來以及人工智能具身化技術的發展具有重要意義。
推理的力量
SIMA 的第一個版本學會了在各種商業電子游戲中執行 600 多項語言跟隨技能。它在這些環境中像真人一樣操作,通過“看”屏幕并使用虛擬鍵盤和鼠標進行導航。
通過將 Gemini 模型嵌入到智能體的核心,SIMA 2 不僅可以響應指令,還能思考和推理指令。
研究人員使用包含語言標簽的人類演示視頻以及 Gemini 生成的標簽對 SIMA 2 進行了訓練。因此 SIMA 2 可以向用戶描述它的意圖,并詳細說明它為實現目標所采取的步驟。
泛化性能躍升
SIMA 2 能夠理解并完成冗長復雜的任務
SIMA 2 能夠理解多模態提示
SIMA 2 可以理解不同的語言,甚至還能識別表情符號
SIMA 2 還可以遷移已習得概念的能力,是實現人類認知中廣泛泛化能力的基礎。事實上,正是由于這種能力,SIMA 2 在各種任務上的表現都顯著接近人類玩家。
可擴展的多任務自我提升
SIMA 2 最令人興奮的新功能之一是自我改進能力。在整個訓練過程中,SIMA 2 智能體能夠通過反復試驗和基于 Gemini 的反饋,逐步完成越來越復雜的新任務。
在最初通過人類演示學習后,SIMA 2 便能完全通過自主游戲的方式在新游戲中學習,在之前從未見過的世界中提升技能,而無需額外的人類生成數據。在后續訓練中,SIMA 2 自身的經驗數據可用于訓練下一代更強大的智能體。
SIMA 2 能夠在各種游戲環境中運行,這是通用智能的重要試驗場,使智能體能夠掌握技能、練習復雜的推理,并通過自主游戲不斷學習。
但是,研究也顯示智能體在處理需要大量多步驟推理和目標驗證的超長時程、復雜任務時仍然面臨挑戰——SIMA 2 必須使用有限的上下文窗口才能實現低延遲交互。而且如何通過鍵盤和鼠標界面執行精確的底層操作,以及如何對復雜的 3D 場景進行穩健的視覺理解,仍然是整個領域仍在努力解決的難題。
SIMA 2 證實,經過廣泛訓練、利用多樣化的多世界數據和 Gemini 強大的推理能力的人工智能,能夠成功地將許多專業系統的能力整合到一個連貫的通用智能體中。
SIMA 2 也為機器人領域的應用提供了強有力的幫助,從導航和工具使用到協作任務執行的技能是未來人工智能助手在現實世界中實現智能物理化的基本組成部分。
參考資料:
https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/