繼音頻生成模型 LongCat-Audio 后,美團 LongCat 又發布新的視頻生成模型。
據官方通報,該模型在文生(Text-to-Video)、圖生(Image-to-Video)兩大任務上達成開源 SOTA (state-of-the-art)水平,同時還具備“分鐘級長視頻”連續生成能力。
LongCat-Video 是一個擁有 136 億參數的基礎視頻生成模型,尤其擅長高效、高質量的長視頻生成。
模型不僅支持 720p、30fps 的高質量畫面(文生部分),還能精準解析文本中物體、人物、場景、風格等細節指令。
隨著美團的加入,生成視頻的賽道越來越卷。作為外賣起家的平臺,美團 LongCat-Video 在設計和能力上又有什么亮點呢?
模型亮點速覽
LongCat-Video 由美團 LongCat 團隊打造,是一個統一模型,覆蓋文本生成視頻、圖像生成視頻、視頻續寫三大任務。
模型基于 DiT(Diffusion Transformer)架構,采用‘條件幀數量’區分任務。可完成文生無需條件幀、圖生輸入1 幀、續寫輸入多幀等任務。
模型有四大核心亮點:
支持多任務:LongCat-Video 將文本轉視頻 、 圖像轉視頻和視頻延續任務統一到一個視頻生成框架中。它使用單一模型原生支持所有這些任務,并在每項任務中始終保持強勁性能。
長視頻生成:LongCat-Video 經過原生視頻連續任務預訓練,使其能夠制作長達數分鐘的視頻,而不會出現色彩漂移或質量下降的情況。
高效推理:LongCat-Video 采用由粗到精的生成策略,在時間和空間維度上,幾分鐘內即可生成 720p、30fps 的視頻。塊稀疏注意力機制進一步提升了效率,尤其是在高分辨率下。
多獎勵 RLHF 的強勁性能:在多獎勵組相對策略優化 (GRPO) 的支持下,內部和公共基準的綜合評估表明,LongCat-Video 實現了與領先的開源視頻生成模型以及最新的商業解決方案相當的性能。
LongCat-Video 在開源視頻生成模型中已達到 SOTA 水平。文生視頻能力優于 PixVerse-V5 和 Wan2.2-T2V-A14B 等視頻模型。
降本增效的策略組合
推理效率仍然是視頻生成的一大挑戰,尤其是在生成高分辨率、高幀率的視頻時。
研究團隊因此引入了多項優化措施來提升推理效率,對基礎模型進行了提煉,以減少必要的采樣步驟。
此外還部署了由粗到精 (C2F) 生成和塊稀疏注意力 (BSA),以進一步降低高分辨率視頻生成的時間成本。
結合這些策略可將推理效率提高 10 倍以上,從而可以在幾分鐘內生成 720p、30f/s 的視頻。粗到精的生成策略不僅降低了推理成本,還提高了生成質量,尤其是增強了視覺細節。
在 GRPO 訓練中,團隊僅采用文本轉視頻任務,并發現指令遵循、視覺質量和運動質量的提升可以很好地推廣到圖像轉視頻和視頻延續任務。
結語
用戶偏好表明,LongCat-Video 的性能雖然落后于最先進的閉源模型 Veo3,但可與 PixVerse-V5 等其他領先的專有模型相媲美。
在直接比較中,LongCat-Video 和 PixVerse-V5 的整體質量幾乎相同(242 vs. 246),而且在視覺質量方面表現出明顯的優勢。
更重要的是,與目前最先進的開源模型 Wan2.2-T2V-A14B 進行對比時,LongCat-Video 在整體質量上更受用戶青睞,這得益于其在文本對齊和運動質量方面的優勢。
高效的長視頻生成解決了世界模型的渲染問題,使模型能夠通過生成的視頻內容表達其世界知識。
研究人員表示,未來的研究方向包括更好地建模物理知識、在視頻生成中集成多模態記憶,以及整合 LLM 和 MLLM 的知識。
參考資料: https://github.com/meituan-longcat/LongCat-Video/blob/main/longcatvideo_tech_report.pdf