阿里云聲稱,在其 Model Studio 市場內進行的為期數月的 Beta 測試中,其全新 Aegaeon 池化系統將服務大型語言模型所需的 Nvidia GPU 數量減少了 82%。
該結果發表在首爾舉行的 2025 年 ACM 操作系統研討會 (SOSP) 上的一篇同行評議論文中,表明云提供商或許能夠從現有芯片中提取出更強大的推理能力,尤其是在中國等 Nvidia 最新 H20 芯片供應仍然有限的市場。
減少對 GPU 的依賴
與追求模型質量或速度的訓練時間突破不同,Aegaeon 是一個推理時間調度器,旨在最大限度地提高 GPU 在眾多具有突發性或不可預測需求的模型中的利用率。
Aegaeon 并非將一個加速器綁定到一個模型,而是在令牌級別虛擬化 GPU 訪問,從而允許其在共享池中調度微小的工作片段。
這意味著一臺 H20 可以同時服務于多個不同的模型,系統范圍的“有效吞吐量”(衡量有效輸出的指標)與舊版無服務器系統相比,最高可提升 9 倍。
論文指出,該系統已在生產環境中測試了數月。論文作者來自北京大學和阿里巴巴基礎設施部門,其中包括首席技術官周靖人。系統支持數十種不同 LLM(參數規模高達 720 億)所需的 GPU 數量從 1192 個減少到僅 213 個。
雖然該報沒有具體說明哪些型號對節省的貢獻最大, 但《南華早報》 報道稱,測試是使用 Nvidia 的 H20 進行的,這是根據現行美國出口管制規定,中國買家仍可合法購買的少數加速器之一。
阿里巴巴表示,這些優勢主要源于兩項技術:
在每個 GPU 上打包多個模型;
使用令牌級自動縮放器在輸出生成時動態分配計算資源,而不是在請求級別預留資源。
模型性能優化
阿里云發現,在實際的 AI 任務中,只有少數模型被頻繁使用。然而,大量的 GPU 資源卻被分配給了很少被調用的模型,導致資源利用率低下。數據顯示,17.7%的 GPU 資源僅承載了總推理請求的 1.35%。
借助 Aegaeon,阿里巴巴通過池化和智能擴展策略解決了這種不平衡問題。該系統確保了 GPU 的持續使用,并避免了不常用模型的閑置處理。 阿里巴巴實現了更高的吞吐量,并提升了企業部署的硬件效率。
在基準測試中,Aegaeon 的實際吞吐量是 ServerlessLLM 和 MuxServe 的 1.5 倍到 9 倍不等。
戰略轉變
華為和寒武紀等中國企業正在加速研發國產 GPU,以減少對外國的依賴。英偉達首席執行官表示,該公司在中國先進 AI 芯片市場的份額已降至零。這一趨勢促使本土企業進行創新,并實現 AI 硬件供應鏈的本地化。
阿里巴巴的新策略鞏固了其市場地位,同時也與國家科技自給自足戰略相契合。通過減少對美國芯片的依賴,阿里巴巴在中國不斷發展的人工智能生態系統中獲得了更穩固的立足點。
這些節省能否在阿里巴巴堆棧之外發揮作用還有待觀察。阿里云的論文并未具體說明 Beta 測試中使用的具體網絡結構,但該公司提供自己的 eRDMA 彈性 RDMA 網絡,并且擁有構建高度集成的 GPU 服務堆棧的記錄,這表明結果可能取決于優化的垂直集成環境。
無論如何,隨著推理需求持續飆升,這一結果可能會吸引其他超大規模企業的興趣,他們希望擴大稀缺的加速器規模。
參考資料:
https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent
https://coincentral.com/alibaba-group-holding-limited-baba-stock-soars-as-new-ai-pooling-tech-slashes-nvidia-gpu-use-by-82/