美團又開源視頻生成模型，生成能力可達 SOTA 水平

2025-11-14 17:58

繼音頻生成模型 LongCat-Audio 后，美團 LongCat 又發布新的視頻生成模型。

據官方通報，該模型在文生（Text-to-Video）、圖生（Image-to-Video）兩大任務上達成開源 SOTA （state-of-the-art）水平，同時還具備“分鐘級長視頻”連續生成能力。

LongCat-Video 是一個擁有 136 億參數的基礎視頻生成模型，尤其擅長高效、高質量的長視頻生成。

模型不僅支持 720p、30fps 的高質量畫面（文生部分），還能精準解析文本中物體、人物、場景、風格等細節指令。

隨著美團的加入，生成視頻的賽道越來越卷。作為外賣起家的平臺，美團 LongCat-Video 在設計和能力上又有什么亮點呢？

模型亮點速覽

LongCat-Video 由美團 LongCat 團隊打造，是一個統一模型，覆蓋文本生成視頻、圖像生成視頻、視頻續寫三大任務。

模型基于 DiT（Diffusion Transformer）架構，采用‘條件幀數量’區分任務。可完成文生無需條件幀、圖生輸入1 幀、續寫輸入多幀等任務。

模型有四大核心亮點：

支持多任務：LongCat-Video 將文本轉視頻、圖像轉視頻和視頻延續任務統一到一個視頻生成框架中。它使用單一模型原生支持所有這些任務，并在每項任務中始終保持強勁性能。
長視頻生成：LongCat-Video 經過原生視頻連續任務預訓練，使其能夠制作長達數分鐘的視頻，而不會出現色彩漂移或質量下降的情況。
高效推理：LongCat-Video 采用由粗到精的生成策略，在時間和空間維度上，幾分鐘內即可生成 720p、30fps 的視頻。塊稀疏注意力機制進一步提升了效率，尤其是在高分辨率下。
多獎勵 RLHF 的強勁性能：在多獎勵組相對策略優化 (GRPO) 的支持下，內部和公共基準的綜合評估表明，LongCat-Video 實現了與領先的開源視頻生成模型以及最新的商業解決方案相當的性能。

LongCat-Video 在開源視頻生成模型中已達到 SOTA 水平。文生視頻能力優于 PixVerse-V5 和 Wan2.2-T2V-A14B 等視頻模型。