重磅!阿里達摩院發布首個VLA與世界模型統一架構RynnVLA-002:97.4%成功率刷新認知
作者:Jun Cen等 解讀:AI生成未來 亮點直擊 統一架構:RynnVLA-002,這是一個將視覺-語言-動作(VLA)模型與世界模型統一在單一框架中的“動作世界模型”。 雙向增強:實現了 VLA
豆包輸入法1.0實測:干凈是最大優勢,功能是最大短板
優缺點分明。 豆包已成為小雷日常生活中使用頻率最高的AI應用,無論是各類疑難問題解答、群訪文檔總結,還是文字內容調整,都能放心交給它處理。 就在最近,小雷發現自己的手機應用商店上架了一款名為豆包輸入法
硬剛GPT-Image-1?蘋果最新UniGen-1.5強勢發布:一個模型搞定理解+生成+編輯!
作者:Rui Tian等 解讀:AI生成未來 亮點直擊 推出UniGen-1.5統一多模態大模型,通過創新的架構設計與訓練流程,實現了先進的圖像理解、生成與編輯能力融合。 開創統一強化學習訓練框架,借
告別文字想象!快手可靈團隊開源VANS:實現從“語言描述”到“動態演示”跨越,多項SOTA
作者:Junhao Cheng等 解讀:AI生成未來 亮點直擊 開創VNEP新范式:將下一代事件推理從文本描述推進到動態視頻演示的新階段。 提出VANS框架及核心Joint-GRPO策略:通過強化學習
NeurIPS`25 | 感嘆歲月神偷!南開&三星開源Cradle2Cane:完美破解“年齡-身份”兩難困境!
作者:Tao Liu, Dafeng Zhang等 解讀:AI生成未來 亮點直擊 直擊痛點,提出“Age-ID Trade-off”: 深入分析了人臉老化任務中“年齡準確性”與“身份保持”之間的內在矛
Gemini 3 自述:我不是要替代人類,我是為了終結平庸
來源:@首席數智官 在硅谷的計算機歷史博物館里,靜靜躺著早期的真空管和穿孔卡片。它們沉默不語,卻定義了那個時代計算的極限。 而在Google DeepMind的數據中心里,無數個TPU正在以微秒級的
第二彈!MIT何愷明團隊再發重磅成果VARC:ARC原來是個視覺問題!性能匹敵人類水平
作者:Keya Hu、Kaiming He等 解讀:AI生成未來 圖 1:ARC 基準(上圖)由許多不同的任務組成,其中每個任務都有少量(如 2-4 個)測試樣本。本文提出了視覺 ARC (VARC)
新加坡國立等發布WEAVE:首個上下文交錯式跨模態理解與生成全套解決方案
作者:Wei Chow、Jiachun Pan等 解讀:AI生成未來 亮點直擊 數據集創新:WEAVE-100k——首個面向多輪上下文感知圖像理解與生成的大規模數據集。包含10萬個樣本、37萬輪對話和
文生圖也會“精神分裂”?北大、字節聯手揭秘:越思考越畫錯!并行框架終結AI“左右互搏”
作者:Ye Tian、Ling Yang等 解讀:AI生成未來 亮點直擊 深入的基準測試與分析:ParaBench,一個新的基準測試,旨在系統性地評估“思考感知”型圖像生成與編輯任務。它不僅關注最終生
一步直接封神!單步擴散媲美250步教師模型!中科大&字節發布圖像生成“分層蒸餾術”
作者:Hanbo Cheng等 解讀:AI生成未來 亮點直擊 系統性分析與統一視角:對軌跡蒸餾(TD)進行了系統性分析,揭示了其本質是一種有損壓縮過程。這一視角解釋了為何TD方法雖然能有效保留全局結構
視頻模型在真推理還是“演”推理?港中文等提出新基準拷問:Chain-of-Frame到底是真是假?
作者:Ziyu Guo等 解讀:AI生成未來 引言 近年來,以 Veo、Sora 等為代表的視頻生成模型展現出驚人的生成能力,能夠合成高度逼真、時間連續的動態畫面。這些進展暗示,模型在視覺內容生成之外
直播革命來了!StreamDiffusionV2:140億參數實時視頻飆上58FPS!伯克利&韓松團隊等
作者:Tianrui Feng等 解讀:AI生成未來 亮點直擊 StreamDiffusionV2,這是一個免訓練的流式系統,專為視頻擴散模型設計,用于實現動態交互式的視頻生成。 巧妙整合了SLO-a
一文講透自動駕駛中的“點云”
在談及自動駕駛感知系統時,經常會看到一個專業詞匯,那便是“點云”。作為連接物理現實與數字世界的橋梁,它賦予機器一種超越人類視覺的深度感知能力,讓車輛得以精確地“理解”自身在環境中的位置與周遭物體的真實
主題一致超越所有開源與商業模型!中科大&字節開源統一創新框架BindWeave
作者:Zhaoyang Li等 解讀:AI生成未來 亮點直擊 BindWeave:針對現有視頻生成技術在主題一致性方面的瓶頸,提出了一個專為主題一致性視頻生成設計的新型框架。 引入多模態大語言模型作為
頂刊TPAMI 2025!一個模型搞定所有!多模態跟蹤“全能王”UM-ODTrack橫空出世
作者:Yaozong Zheng等 解讀:AI生成未來 亮點直擊 1.為視覺跟蹤領域提供了首個通用的視頻級模態感知跟蹤模型。UM-ODTrack?僅需訓練一次,即可使用相同的架構和參數實現多任務推理,
好聽、好用、好安全,海康威視打造全套網絡音頻系統
你能想象嗎?在數字化技術、網絡技術席卷全球的今天,會議音頻與擴聲系統竟然還大量采用模擬信號技術。然而這種誕生于上世紀的音頻技術,正面臨“三重困境”: 首先,信號裸奔。模擬系統通過模擬信號傳輸,像天線一
首個基于LLM的開源音頻大模型!階躍星辰重磅開源Step-Audio-EditX:P聲音如此簡單!
作者:Chao Yan等 解讀:AI生成未來 亮點直擊 首個開源的 LLM 音頻編輯模型:Step-Audio-EditX,首個基于大語言模型(LLM)的開源音頻模型,不僅擅長表現力豐富和可迭代的音頻
SLAM在自動駕駛中起到什么作用?
在談及自動駕駛時,經常會聽SLAM這項技術。SLAM,即“Simultaneous Localization And Mapping”的縮寫,中文稱為“同時定位與建圖”。SLAM可以解決一個非常關鍵的
旅行Agent評測:通義千問VS攜程AIVS豆包
今時不同往日,剛剛過去的2025年十一假期,可以稱得上是AI時代的第一個十一假期。 一個全新的概念已經浮出水面:旅行Agent(AI旅行助手)。 各大平臺紛紛開始把AI應用于旅行上,無論是規劃行程、提
小鵬Robotaxi和IRON發布:物理AI“安全大考”才剛剛開始
“當 AI 從屏幕里的算法,變成能幫你開門、載你通勤的‘物理伙伴’,安全和智能哪個該優先?”11 月 5 日小鵬科技日的開場提問,把這場技術發布會從 “參數秀” 拉回了普通人的生活場景 —— 當天拋出
資訊訂閱
- 精彩回顧 《2024智能制造產業高端化、智能化、綠色化發展藍皮書》 查看回顧
- 精彩回顧 OFweek 2025(第十四屆)中國機器人產業大會 查看回顧
- 精彩回顧 Ansys Motion薄膜卷曲卷對卷工藝仿真解決方案 查看回顧
- 精彩回顧 STM32全球線上峰會 查看回顧
- 精彩回顧 2024視覺感知技術在半導體與印刷包裝創新大會 查看回顧
- 精彩回顧 全數會2024中國人形機器人技術創新發展大會 查看回顧
-
加密芯片筑牢工業設備防抄板防線2025-11-14
-
LKT4202UGM、LKT4305GM國密芯片2025-10-31
-
金融級安全加密芯片-LKT43042025-04-10
-
ATSHA204A國產全兼容芯片LCSHA2042025-02-27
-
耗材保護芯片-LKT4304解決方案2025-02-13
-
LKT4304新一代算法移植加密芯片2025-01-16

