剛剛,千尋智能開源了自研 VLA 基礎(chǔ)模型 Spirit v1.5,該模型在第三方機器人模型評測組織 RoboChallenge 的 Table30 榜單上位列第一,超過了之前最強模型 Pi0.5。
機器人基礎(chǔ)模型近年來迅猛發(fā)展。大規(guī)模視覺-語言-動作(VLA)模型開始展現(xiàn)出清潔廚房、在全新環(huán)境中折疊衣物等長時任務(wù)。
許多最先進的模型都基于“干凈”的數(shù)據(jù)集進行訓(xùn)練。這些數(shù)據(jù)集的設(shè)計初衷是盡可能方便機器人復(fù)現(xiàn)演示動作,而這一目標(biāo)也對數(shù)據(jù)施加了一些嚴格的限制:
雖然這種“干凈”的方法提供了一個穩(wěn)定的起點,但它限制了機器人的泛化能力。如果機器人只在一切都完全可見且可到達的環(huán)境中學(xué)習(xí),那么當(dāng)面對開放世界中諸如部分可觀測性等問題時,它很可能會失敗。
千尋智能這種基于精心篩選數(shù)據(jù)的常見做法提出了質(zhì)疑。為了超越實驗室環(huán)境,實現(xiàn)真正的泛化,他們提倡使用多樣化且很大程度上不受控制的數(shù)據(jù)進行機器人預(yù)訓(xùn)練。
開放式多樣化數(shù)據(jù)收集
在傳統(tǒng)的定向采集方法中,子任務(wù)通常遵循單一的線性路徑走向成功,任何偏離理想化順序的情況都被視為失敗,并在數(shù)據(jù)采集過程中被舍棄。
相比之下,多樣化采集范式構(gòu)建了一個更為復(fù)雜、相互關(guān)聯(lián)的經(jīng)驗網(wǎng)絡(luò)。雖然它仍然包含一條通往目標(biāo)的成功路徑,但也融入了諸如失敗-重試循環(huán)和偏離等真實場景。這種多樣性使機器人能夠?qū)W習(xí)恢復(fù)行為,并在重疊的任務(wù)之間平滑過渡。
通過強制數(shù)據(jù)采集者遵循預(yù)設(shè)的腳本采集而成的數(shù)據(jù)往往面臨低多樣性和有限的可擴展性這兩大問題。
由于數(shù)據(jù)經(jīng)過高度優(yōu)化,模型無法學(xué)習(xí)如何從失誤中恢復(fù)、如何處理雜亂的表面,或者如何在光線變化時做出反應(yīng)。
除此之外,每個演示驅(qū)動的數(shù)據(jù)集都需要精心設(shè)計任務(wù)和進行質(zhì)量控制,這造成了嚴重的擴展性問題。對于每個新的場景,一個工程師團隊都必須設(shè)計任務(wù)、編寫詳細的數(shù)據(jù)采集員操作指南并篩選數(shù)據(jù)。這種工作流程限制了可收集的數(shù)據(jù)量。
千尋智能提出一種范式轉(zhuǎn)變,即摒棄大部分保證數(shù)據(jù)“干凈”的規(guī)則,只遵循一條規(guī)則:做有用的事。這種方法稱為開放式、目標(biāo)驅(qū)動的數(shù)據(jù)收集,或稱多樣化收集。
來源:千尋智能
這種方法具有以下幾個關(guān)鍵優(yōu)勢:
多樣性和物理協(xié)調(diào):數(shù)據(jù)包含了海量的物體交互、軌跡和環(huán)境信息。每次記錄都自然而然地將多個不同的任務(wù)或子任務(wù)串聯(lián)起來。它并非只是重復(fù)單一動作,而是記錄了技能的連續(xù)流動,以及不同目標(biāo)之間的轉(zhuǎn)換。多樣化的采集方法不再局限于學(xué)習(xí)如何孤立地完成某個特定動作,而是學(xué)習(xí)一系列技能及其相互聯(lián)系,從而使模型知識更加通用。
可擴展性:多樣化的數(shù)據(jù)收集方式對操作人員來說更有趣、更具吸引力,因為他們可以從事各種有趣的工作,而不是重復(fù)數(shù)百次枯燥的動作。這有助于團隊保持高效率,減少邊際成本。
多樣性作為訓(xùn)練燃料
研究團隊建立了兩組模型。一組是在經(jīng)過精心挑選的演示任務(wù)的數(shù)據(jù)集上進行預(yù)訓(xùn)練。另一組是使用包含開放式多樣化數(shù)據(jù)集的預(yù)訓(xùn)練模型。
結(jié)果表明,多樣性優(yōu)勢顯著。在微調(diào)階段,使用多樣化數(shù)據(jù)集訓(xùn)練的模型在收斂速度和最終性能方面均優(yōu)于基于演示數(shù)據(jù)集的模型。具體而言,多樣化數(shù)據(jù)集模型達到相同性能所需的迭代次數(shù)比基線模型減少了 40%。
除了比較數(shù)據(jù)類型之外,團隊還發(fā)現(xiàn)遷移效率與多樣化數(shù)據(jù)量呈正相關(guān)。隨著數(shù)據(jù)集的增長,新任務(wù)的驗證誤差持續(xù)下降,這表明模型有效地學(xué)習(xí)如何從日益增長且固有的現(xiàn)實世界多樣性中學(xué)習(xí)。這些發(fā)現(xiàn)表明,任務(wù)多樣性比單個任務(wù)的演示數(shù)量更為關(guān)鍵。該模型學(xué)習(xí)到一種通用策略,只需更少的步驟即可適應(yīng)新任務(wù)。這證實了,使用高多樣性、控制較為寬松的數(shù)據(jù)進行預(yù)訓(xùn)練不僅是可行的,而且優(yōu)于使用文獻中常見的“干凈”數(shù)據(jù)。
在最近一次評估中,Spirit-v1.5 在基準(zhǔn)測試中取得了最先進的性能,顯著優(yōu)于之前的領(lǐng)先者,例如 pi0.5。在 RoboChallenge 的設(shè)置中,所有模型都使用同一組數(shù)據(jù)對 Table30 任務(wù)進行微調(diào)。因此,區(qū)分因素在于基礎(chǔ)模型的能力,特別是其泛化和遷移能力,而這正是多樣性的優(yōu)勢所在。
參考資料:
https://www.spirit-ai.com/en/blog/spirit-v1-5