大家在使用 AI 工具的過程中會發現,有的 AI 反應快得像搶答,有的半天蹦不出一個字,體驗差得不是一星半點。這背后的門道,就藏在 “推理技術” 里。
8 月 12 日,華為搞了個大動作,發布了一項超厲害的 AI 推理黑科技 —— UCM,也就是推理記憶數據管理器。
此技術有望讓推理時延大幅降低,成本也跟著減少,推理效率更是能大幅提升,堪稱 AI 超級加速器。
看組數據,國外那些主流 AI 模型,一秒能輸出 200 多個詞,延遲低到只有 5 毫秒,快得讓人以為開了掛。而國內,大多一秒連 60 個詞都費勁,延遲能飆到 50-100 毫秒。
這一對比,差距就出來了。所以,解決推理效率和用戶體驗這兩大難題是非常迫切的。
那 UCM 到底是啥狠角色?簡單來說,它就是 AI 的 "記憶管家"。AI 思考時會記一堆 "臨時筆記"(業內叫 KV Cache),UCM 能把這些筆記分好類、排好序,需要的時候一秒就能調出來,不用再瞎琢磨浪費時間。這么一來,推理上下文窗口擴大了,高吞吐、低時延的推理體驗就這么實現了,每 Token 推理成本也降低了,可謂一箭三雕。
從具體技術實現路徑來看,它有個 “全局前綴緩存” 的本事,就像你跟 AI 嘮嗑時,它不用每次都從頭回憶,直接調取之前的聊天記錄,首條回復的延遲最多能砍 90%。而且它還特聰明,能把重要的記憶存在不同的 “抽屜” 里,處理長文本時,每秒能搞定的字數是原來的 2-22 倍,能記住的東西也一下子多了 10 倍不止。
這技術已經在銀聯試過水了。銀聯的 “客戶之聲” “營銷策劃” “辦公助手” 這三個場景,用上 UCM 之后效果立竿見影。
同時,隨著 AI 應用越來越深入各種實際場景,處理的文字量瘋了一樣漲。就說火山引擎,去年 5 月每天處理的字數才 16.4 萬億,今年直接飆了 137 倍,背后的服務器維護、電費都是天文數字。想讓 AI 用著順,就得砸更多錢搞算力,這平衡太難找了,整個行業都在犯愁。
面對此局,華為宣布 9 月要把 UCM 開源。到時候先在魔擎社區放出來,之后再給其他主流社區,還會共享給業內所有 Share Everything(共享架構)存儲廠商和生態伙伴。
華為希望行業里更多企業一起努力,推動推理框架、標準的形成。