現有的模型在精確對齊視覺內容與語言描述方面的能力仍然有限,尤其是在非英語環境下。模型往往難以捕捉物體屬性、空間關系和語言表達中的精細細節,并且對雙語理解的支持也有限。
近日,360 發布了 FG-CLIP 2,這是一款英語和漢語細粒度視覺語言理解的基礎模型。
在 29 個數據集和 8 項不同的任務中,它超越了 SigLIP 2 和 MetaCLIP 2,在兩種語言中都取得了迄今為止報道的最佳性能。
FG-CLIP 2 由 4 個關鍵部分組成:
豐富的細粒度監管:該方法包含區域-文本匹配和長標題建模,以及多種判別性目標。此外,我們還引入了文本內模態對比(TIC)損失函數,以更好地區分語義相似的標題。
雙語多模態數據:FG-CLIP 2 使用精心挑選的大規模英語和漢語混合數據進行訓練,實現了強大的雙語性能。
表現:在 8 項任務的 29 個數據集上進行的大量實驗表明,FG-CLIP 2 的性能優于現有方法,在兩種語言中均取得了最先進的結果。
中國多模態基準測試:為了進行嚴格的評估,我們提出了一個新的中文多模態理解基準,其特點是長標題檢索和邊界框分類。
框架與數據
360 團隊采用兩階段分層學習框架,從全局語義到細粒度細節逐步增強視覺語言的一致性。
第一階段:全局語義對齊。首先使用大規模的圖像-文本對,每個圖像-文本對都標注了簡短的場景描述和詳細的上下文信息。基于此雙語語料庫的訓練能夠實現強大的全局對齊,為英語和漢語的跨模態理解奠定堅實的基礎。
第二階段:精細視覺語言學習。在全局對齊表示的基礎上添加了區域級監督和多個細粒度的 旨在加強本地溝通。此階段包括:
細粒度視覺學習:通過 RoIAlign 提取的區域特征和短語級描述進行區域-標題對齊。
細粒度文本學習:使用具有擾動屬性的硬否定詞來區分細微的文本差異。
全局閾值同步的跨模態排名損失:具有全局同步閾值的動態間隔排名,用于穩定地挖掘困難的負樣本。
文本內模態對比損失:語言內對比學習,用于區分語義相似但不同的區域標題。
數據方面,第一階段使用來自不同來源的圖像-文本對進行訓練。英文部分使用線性混合模型 (LMM) 生成的詳細長文本對來增強原始的簡短圖像描述。中文則結合了三個數據集:Wukong(1 億個圖像-文本對)、Zero(2.5 億個圖像-文本對)以及一個大規模的內部數據集(5 億個圖像-文本對)。
第二階段使用細粒度的區域-文本對擴展訓練。英文使用 FineHARD 數據集,該數據集包含 1200 萬張圖像、4000 萬個帶有細粒度區域描述的邊界框以及 1000 萬個難負樣本。中文則使用一個包含 1200 萬張圖像的內部數據集。
雙語的強大泛化能力
FG-CLIP 2 在 29 個數據集和 8 項任務中均取得了優異的性能,包括細粒度理解、邊界框分類、開放詞匯目標檢測、長短描述圖像文本檢索、零樣本圖像分類、開放詞匯分割以及大型多模態模型 (LMM) 任務,展現了其在英語和漢語雙語中的強大泛化能力。
如下圖所示,暖色調表示圖像區域與匹配文本的相似度更高。與前代版本相比,FG-CLIP 2 支持更密集的視覺特征輸出,并實現了更強的雙語語義對齊和更細粒度的感知能力。
360 現已發布了模型、代碼和基準測試。官方稱在未來的工作中將致力于擴展模型以處理更長的文本輸入,并顯式地對對象之間的關系結構進行建模,從而實現更豐富的細粒度多模態理解。
參考資料:
https://360cvgroup.github.io/FG-CLIP/
https://arxiv.org/pdf/2510.10921