國產多模態搜索史詩級突破!Qwen3-VL登頂MMEB:支持30+語言,一套模型搞定圖文視頻
作者:Mingxin Li等 解讀:AI生成未來 亮點直擊 推出了基于 Qwen3-VL 基礎模型的?Qwen3-VL-Embedding?和?Qwen3-VL-Reranker?系列模型。 一套端到
硬剛谷歌Veo3!快手Klear統一多任務音視頻聯合生成:創新單塔架構,口型語音完美同步
作者:Jun Wang、Chunyu Qiang等 解讀:AI生成未來 亮點直擊 Klear 框架:提出了一個統一的音頻-視頻生成框架,能夠同時處理聯合生成(Joint Generation)和單模態
強勢斬獲6項SOTA!UniCorn打通理解與生成任督二脈,靠“內省”重構多模態認知
作者:Ruiyan Han等 解讀:AI生成未來 亮點直擊 傳導性失語癥:將統一多模態模型中“理解能力強但生成能力弱”的現象形式化為“傳導性失語癥”。 UniCorn 框架:一種無需外部數據或教師監督
一個人就是一支整編劇組!首個“統一導演”模型發布:字節UniMAGE,讓腦洞原地變大片
作者:Jiaxu Zhang等 解讀:AI生成未來 亮點直擊 概念:UniMAGE體現了“統一導演模型” 的概念,整體協調敘事邏輯和視覺構圖,將用戶意圖與多模態劇本聯系起來,實現創意音視頻生成。 技術
全棧視覺生成器殺到!上交&快手&南洋理工最新VINO:圖像視頻生成+編輯一網打盡
作者:Junyi Chen等 解讀:AI生成未來 亮點直擊 統一視覺生成框架VINO:一個將圖像/視頻生成與編輯任務統一在單一框架下的模型,無需針對特定任務設計獨立模塊。 交錯全模態上下文:通過耦合視
復刻“黑客帝國”子彈時間!SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運鏡隨你掌控
作者:Zhening Huang等 解讀:AI生成未來 亮點直擊 首次實現了聯合空間和時間控制的視頻擴散模型:?SpaceTimePilot 是首個能夠從單個單目視頻實現對動態場景進行聯合空間(攝像機
港中文&字節聯合推出DreamOmni3:解鎖“涂鴉+圖文”聯合輸入,重新定義多模態生成與編輯
作者:Bin Xia等 解讀:AI生成未來 DreamOmni3 的效果展示,具備基于涂鴉的編輯和生成功能 亮點直擊 提出了兩項對統一生成與編輯模型極具實用價值的任務:基于涂鴉的編輯和基于涂鴉的生成。
DJI Neo 2 兩個月實測:跟拍靠譜、畫質夠用,無人機“玩具化”的方向對了?
用兩個月后,我上癮了。 兩個月前,小雷拿到 DJI Neo 2 ,第一反應其實很普通:這么小一臺無人機,能有多大本事? 151g 的機身、包著槳保的“安全外殼”、機身上那塊小小的屏幕……它看起來更像一
首個亞秒啟動的14B“數字人”開源!效率飆23倍!SoulX-LiveTalk:32FPS讓對話絲滑如真人
作者:Le Shen等 解讀:AI生成未來 亮點直擊 SoulX-LiveTalk框架:?一個低延遲、實時、音頻驅動的虛擬形象框架,其核心是14B參數的DiT模型。克服大規模擴散模型在實時、無限流媒體
口型匹配、身份保持全面SOTA!清華&可靈X-Dub:拋棄修復思維,用“編輯”實現精準同步!
作者:Xu He等 解讀:AI生成未來 亮點直擊 范式轉變:本文將視覺配音從一個病態的“掩碼修復”任務重新定義為一個條件良好的“視頻到視頻編輯”任務。 自引導框架(X-Dub)?:提出了一個自我引導框
北交&字節最新開源ThinkGen:首次顯式利用多模態CoT處理生成任務,多項任務性能SOTA
作者:Siyu Jiao等 解讀:AI生成未來 亮點直擊 首次提出思考驅動的視覺生成框架:?ThinkGen 是第一個顯式利用 MLLM 的思維鏈(CoT)推理來處理各種生成場景的思考驅動視覺生成框架
超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,單卡12 FPS實時交互渲染
作者:Xiaofeng Mao等 解讀:AI生成未來 亮點直擊 聯合時空通道建模(TSCM):用于無限上下文生成,盡管上下文長度不斷增加,該方法仍能保持穩定的采樣速度。 將 Self-Forcing
AI自己當導演?KlingAvatar 2.0“聯合推理”黑科技:讓數字人不僅會演,更懂劇本!新SOTA!
作者:快手Kling團隊 解讀:AI生成未來 圖1 KlingAvatar 2.0生成生動、保持身份的數字人類,具備精準的攝像頭控制、豐富的情感表達、高質量的動作以及精準的面部-唇部和音頻同步。它實現
僅960M參數,不僅干翻百億大模型,速度還快了6倍!字節最新圖像編輯模型EditMGT開源啦
作者:Wei Chow,Linfeng Li等 解讀:AI生成未來 亮點直擊 提出了EditMGT,這是首個基于MGT的圖像編輯模型,它通過利用MGT的令牌翻轉特性來顯式地保留與編輯無關的區域,從而從
為國爭光!智譜GLM-4.7橫掃全球開源模型,超越GPT5.2
智譜又為國爭光了!智譜正準備在港交所上市,即將成為全球大模型第一股。同時,發布了「GLM-4.7」模型。GLM-4.7最驚艷的是編程能力,在國產模型中排名第一。放眼全球,也是橫掃所有開源模型,甚至評分
6倍極速生成無限時長人像視頻!復旦&微軟最新FlashPortrait:讓你成為數字人面具背后的TA
作者:Shuyuan Tu、Zhen Xing等 解讀:AI生成未來 亮點直擊 提出了一種基于滑動窗口的自適應潛變量預測加速機制。該方法無需額外訓練,僅在推理階段激活,可在保持無限長度人像動畫身份一致
超越Veo和Runway!可靈開源Kling-Omni:一個模型通吃視頻生成、剪輯和多模態推理!
作者:Kling 團隊 解讀:AI生成未來 亮點直擊 統一的通用框架:Kling-Omni將多樣化的視頻生成、編輯和智能推理任務整合到一個端到端的通用生成框架中,打破了傳統碎片化的處理模式。 創新性的
加速近200倍!RTX 5090生成高質量視頻只要1.9秒!清華&生數等重磅開源TurboDiffusion
作者:Jintao Zhang等 解讀:AI生成未來 亮點直擊 提出了一種端到端的視頻生成加速框架,在保持視頻質量的同時,將擴散模型的生成速度提升了??。 單張 RTX 5090 GPU 上,該框架能
NanobananaPro/GPT-4o/Sora2/國產模型誰最強?ViStoryBench:全能故事可視化基準首發!
作者:Cailin Zhuang, Ailin Huang,Yaoqi Hu等 解讀:AI生成未來 亮點直擊 如果把“故事可視化”理解成一次跨媒介的“編碼—傳輸—解碼”:文本劇本(編碼)→ 模型生成圖
大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量視頻喂出“最強大腦”
作者:Hongzhe Bi等 解讀:AI生成未來 亮點直擊 統一的基礎模型:Motus,一個統一的具身基礎模型,首次在一個生成式框架內集成了五種主流范式(世界模型、逆動力學模型、VLAs、視頻生成模型
資訊訂閱
- 精彩回顧 《2024智能制造產業高端化、智能化、綠色化發展藍皮書》 查看回顧
- 精彩回顧 OFweek 2025(第十四屆)中國機器人產業大會 查看回顧
- 精彩回顧 Ansys Motion薄膜卷曲卷對卷工藝仿真解決方案 查看回顧
- 精彩回顧 STM32全球線上峰會 查看回顧
- 精彩回顧 2024視覺感知技術在半導體與印刷包裝創新大會 查看回顧
- 精彩回顧 全數會2024中國人形機器人技術創新發展大會 查看回顧
-
加密芯片筑牢工業設備防抄板防線2025-11-14
-
LKT4202UGM、LKT4305GM國密芯片2025-10-31
-
金融級安全加密芯片-LKT43042025-04-10
-
ATSHA204A國產全兼容芯片LCSHA2042025-02-27
-
耗材保護芯片-LKT4304解決方案2025-02-13
-
LKT4304新一代算法移植加密芯片2025-01-16

