千尋智能新模型 Spirit v1.5：超越 Pi0.5 登頂 RoboChallenge

2026-01-16 15:36

剛剛，千尋智能開源了自研 VLA 基礎(chǔ)模型 Spirit v1.5，該模型在第三方機器人模型評測組織 RoboChallenge 的 Table30 榜單上位列第一，超過了之前最強模型 Pi0.5。

機器人基礎(chǔ)模型近年來迅猛發(fā)展。大規(guī)模視覺-語言-動作（VLA）模型開始展現(xiàn)出清潔廚房、在全新環(huán)境中折疊衣物等長時任務(wù)。

許多最先進的模型都基于“干凈”的數(shù)據(jù)集進行訓(xùn)練。這些數(shù)據(jù)集的設(shè)計初衷是盡可能方便機器人復(fù)現(xiàn)演示動作，而這一目標(biāo)也對數(shù)據(jù)施加了一些嚴格的限制：

精心設(shè)計的任務(wù)：簡化或編寫腳本化的操作，以確保采集過程中的一致性和高成功率；
可控物體放置：物體放置在可預(yù)測、易于到達的位置。

雖然這種“干凈”的方法提供了一個穩(wěn)定的起點，但它限制了機器人的泛化能力。如果機器人只在一切都完全可見且可到達的環(huán)境中學(xué)習(xí)，那么當(dāng)面對開放世界中諸如部分可觀測性等問題時，它很可能會失敗。

千尋智能這種基于精心篩選數(shù)據(jù)的常見做法提出了質(zhì)疑。為了超越實驗室環(huán)境，實現(xiàn)真正的泛化，他們提倡使用多樣化且很大程度上不受控制的數(shù)據(jù)進行機器人預(yù)訓(xùn)練。

開放式多樣化數(shù)據(jù)收集

在傳統(tǒng)的定向采集方法中，子任務(wù)通常遵循單一的線性路徑走向成功，任何偏離理想化順序的情況都被視為失敗，并在數(shù)據(jù)采集過程中被舍棄。

相比之下，多樣化采集范式構(gòu)建了一個更為復(fù)雜、相互關(guān)聯(lián)的經(jīng)驗網(wǎng)絡(luò)。雖然它仍然包含一條通往目標(biāo)的成功路徑，但也融入了諸如失敗-重試循環(huán)和偏離等真實場景。這種多樣性使機器人能夠?qū)W習(xí)恢復(fù)行為，并在重疊的任務(wù)之間平滑過渡。

通過強制數(shù)據(jù)采集者遵循預(yù)設(shè)的腳本采集而成的數(shù)據(jù)往往面臨低多樣性和有限的可擴展性這兩大問題。

由于數(shù)據(jù)經(jīng)過高度優(yōu)化，模型無法學(xué)習(xí)如何從失誤中恢復(fù)、如何處理雜亂的表面，或者如何在光線變化時做出反應(yīng)。

除此之外，每個演示驅(qū)動的數(shù)據(jù)集都需要精心設(shè)計任務(wù)和進行質(zhì)量控制，這造成了嚴重的擴展性問題。對于每個新的場景，一個工程師團隊都必須設(shè)計任務(wù)、編寫詳細的數(shù)據(jù)采集員操作指南并篩選數(shù)據(jù)。這種工作流程限制了可收集的數(shù)據(jù)量。

千尋智能提出一種范式轉(zhuǎn)變，即摒棄大部分保證數(shù)據(jù)“干凈”的規(guī)則，只遵循一條規(guī)則：做有用的事。這種方法稱為開放式、目標(biāo)驅(qū)動的數(shù)據(jù)收集，或稱多樣化收集。

來源：千尋智能

這種方法具有以下幾個關(guān)鍵優(yōu)勢：

多樣性和物理協(xié)調(diào)：數(shù)據(jù)包含了海量的物體交互、軌跡和環(huán)境信息。每次記錄都自然而然地將多個不同的任務(wù)或子任務(wù)串聯(lián)起來。它并非只是重復(fù)單一動作，而是記錄了技能的連續(xù)流動，以及不同目標(biāo)之間的轉(zhuǎn)換。多樣化的采集方法不再局限于學(xué)習(xí)如何孤立地完成某個特定動作，而是學(xué)習(xí)一系列技能及其相互聯(lián)系，從而使模型知識更加通用。
可擴展性：多樣化的數(shù)據(jù)收集方式對操作人員來說更有趣、更具吸引力，因為他們可以從事各種有趣的工作，而不是重復(fù)數(shù)百次枯燥的動作。這有助于團隊保持高效率，減少邊際成本。

多樣性作為訓(xùn)練燃料

研究團隊建立了兩組模型。一組是在經(jīng)過精心挑選的演示任務(wù)的數(shù)據(jù)集上進行預(yù)訓(xùn)練。另一組是使用包含開放式多樣化數(shù)據(jù)集的預(yù)訓(xùn)練模型。

結(jié)果表明，多樣性優(yōu)勢顯著。在微調(diào)階段，使用多樣化數(shù)據(jù)集訓(xùn)練的模型在收斂速度和最終性能方面均優(yōu)于基于演示數(shù)據(jù)集的模型。具體而言，多樣化數(shù)據(jù)集模型達到相同性能所需的迭代次數(shù)比基線模型減少了 40%。

除了比較數(shù)據(jù)類型之外，團隊還發(fā)現(xiàn)遷移效率與多樣化數(shù)據(jù)量呈正相關(guān)。隨著數(shù)據(jù)集的增長，新任務(wù)的驗證誤差持續(xù)下降，這表明模型有效地學(xué)習(xí)如何從日益增長且固有的現(xiàn)實世界多樣性中學(xué)習(xí)。這些發(fā)現(xiàn)表明，任務(wù)多樣性比單個任務(wù)的演示數(shù)量更為關(guān)鍵。該模型學(xué)習(xí)到一種通用策略，只需更少的步驟即可適應(yīng)新任務(wù)。這證實了，使用高多樣性、控制較為寬松的數(shù)據(jù)進行預(yù)訓(xùn)練不僅是可行的，而且優(yōu)于使用文獻中常見的“干凈”數(shù)據(jù)。

在最近一次評估中，Spirit-v1.5 在基準(zhǔn)測試中取得了最先進的性能，顯著優(yōu)于之前的領(lǐng)先者，例如 pi0.5。在 RoboChallenge 的設(shè)置中，所有模型都使用同一組數(shù)據(jù)對 Table30 任務(wù)進行微調(diào)。因此，區(qū)分因素在于基礎(chǔ)模型的能力，特別是其泛化和遷移能力，而這正是多樣性的優(yōu)勢所在。

參考資料：

https://www.spirit-ai.com/en/blog/spirit-v1-5