阿里云表示：通過新的池化系統，Nvidia AI GPU 的使用量減少了 82%

2025-11-14 18:09

阿里云聲稱，在其 Model Studio 市場內進行的為期數月的 Beta 測試中，其全新 Aegaeon 池化系統將服務大型語言模型所需的 Nvidia GPU 數量減少了 82%。

該結果發表在首爾舉行的 2025 年 ACM 操作系統研討會 (SOSP) 上的一篇同行評議論文中，表明云提供商或許能夠從現有芯片中提取出更強大的推理能力，尤其是在中國等 Nvidia 最新 H20 芯片供應仍然有限的市場。

減少對 GPU 的依賴

與追求模型質量或速度的訓練時間突破不同，Aegaeon 是一個推理時間調度器，旨在最大限度地提高 GPU 在眾多具有突發性或不可預測需求的模型中的利用率。

Aegaeon 并非將一個加速器綁定到一個模型，而是在令牌級別虛擬化 GPU 訪問，從而允許其在共享池中調度微小的工作片段。

這意味著一臺 H20 可以同時服務于多個不同的模型，系統范圍的“有效吞吐量”（衡量有效輸出的指標）與舊版無服務器系統相比，最高可提升 9 倍。

論文指出，該系統已在生產環境中測試了數月。論文作者來自北京大學和阿里巴巴基礎設施部門，其中包括首席技術官周靖人。系統支持數十種不同 LLM（參數規模高達 720 億）所需的 GPU 數量從 1192 個減少到僅 213 個。

雖然該報沒有具體說明哪些型號對節省的貢獻最大，但《南華早報》報道稱，測試是使用 Nvidia 的 H20 進行的，這是根據現行美國出口管制規定，中國買家仍可合法購買的少數加速器之一。

阿里巴巴表示，這些優勢主要源于兩項技術：

阿里云發現，在實際的 AI 任務中，只有少數模型被頻繁使用。然而，大量的 GPU 資源卻被分配給了很少被調用的模型，導致資源利用率低下。數據顯示，17.7%的 GPU 資源僅承載了總推理請求的 1.35%。

借助 Aegaeon，阿里巴巴通過池化和智能擴展策略解決了這種不平衡問題。該系統確保了 GPU 的持續使用，并避免了不常用模型的閑置處理。阿里巴巴實現了更高的吞吐量，并提升了企業部署的硬件效率。

在基準測試中，Aegaeon 的實際吞吐量是 ServerlessLLM 和 MuxServe 的 1.5 倍到 9 倍不等。

華為和寒武紀等中國企業正在加速研發國產 GPU，以減少對外國的依賴。英偉達首席執行官表示，該公司在中國先進 AI 芯片市場的份額已降至零。這一趨勢促使本土企業進行創新，并實現 AI 硬件供應鏈的本地化。

阿里巴巴的新策略鞏固了其市場地位，同時也與國家科技自給自足戰略相契合。通過減少對美國芯片的依賴，阿里巴巴在中國不斷發展的人工智能生態系統中獲得了更穩固的立足點。

這些節省能否在阿里巴巴堆棧之外發揮作用還有待觀察。阿里云的論文并未具體說明 Beta 測試中使用的具體網絡結構，但該公司提供自己的 eRDMA 彈性 RDMA 網絡，并且擁有構建高度集成的 GPU 服務堆棧的記錄，這表明結果可能取決于優化的垂直集成環境。

無論如何，隨著推理需求持續飆升，這一結果可能會吸引其他超大規模企業的興趣，他們希望擴大稀缺的加速器規模。

參考資料：

https://www.tomshardware.com/tech-industry/semiconductors/alibaba-says-new-pooling-system-cut-nvidia-gpu-use-by-82-percent

https://coincentral.com/alibaba-group-holding-limited-baba-stock-soars-as-new-ai-pooling-tech-slashes-nvidia-gpu-use-by-82/

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：