馬斯克在社交平臺上簡短宣布:“用于 Grok 的 Colossus 2 超級計算機現已投入運行。”這標志著全球首個單體算力達到吉瓦級別的 AI 訓練集群正式誕生。
這個耗電量驚人的硅基巨獸,其 1GW 的持續電力負荷已超過美國舊金山市的用電峰值,相當于一座大型發電廠或大型工業制造基地的能耗水平。
Colossus 2 從破土動工到全負荷運行,整個過程僅耗時約一年半。
1GW 的持續電力負荷是什么概念?它已經超過了舊金山市的用電峰值,相當于一座大型發電廠或大型工業制造基地的能耗水平。而馬斯克透露,這頭算力怪獸的胃口還在增大,將在今年 4 月進一步升級至 1.5 GW。
Colossus 2 擁有相當于 140 萬塊 H100 GPU 的等效算力,采用全液冷設計。xAI 僅用 6 個月就完成了這一造價數百億美元的項目,展現了驚人的執行速度。
全面自建的戰略選擇
與 OpenAI 依賴微軟 Azure、Anthropic 依賴亞馬遜 AWS 的路徑不同,xAI 選擇的路徑是:全面自建基礎設施。
這種垂直整合的策略賦予了極大的戰略主動權。通過自建,xAI 能夠圍繞計算負載的需求從零設計設施,而非削足適履地適應現有的數據中心架構。
在 Colossus 2 園區的衛星圖上,一幢建筑的屋頂被刷上了“MacroHard”(巨硬)的字樣。這既是馬斯克式的幽默,也赤裸裸地展示了其挑戰微軟等傳統軟件巨頭的野心。
馬斯克曾直言,鑒于軟件公司本身不生產物理硬件,原則上完全可以用 AI 來模擬并取代它們。
馬斯克對算力競賽的野心遠不止于此。他放出豪言,聲稱在 5 年內,xAI 的算力總和將超過其他所有公司的總和。更具體地說,xAI 計劃在未來五年內部署相當于 5000 萬個英偉達 H100 等級的 AI GPU。
這一目標不僅在規模上超越當前的 AI 硬件標準,還將在能效上有顯著提升。
據行業分析,xAI 目前已在全球多個站點部署超過 45 萬塊 GPU,并計劃到 2026 年第二季度將 GPU 總量提升至 90 萬塊。這項超過 300 億美元的 GPU 投資使 xAI 在 AI 硬件基礎設施部署方面處于行業領先地位。
代價與挑戰
將吉瓦級的高密度算力集群落地,意味著 xAI 必須像重工業企業一樣處理復雜的市政、電力和環保問題。
2026 年 1 月,美國環保署指出,xAI 在孟菲斯基地使用天然氣渦輪機發電以滿足巨大的電力缺口,部分渦輪機在未獲得必要空氣質量許可的情況下運行。
監管機構明確否定了 xAI 提出的“臨時使用即可豁免監管”的說法,并在經過一年多審查后作出最終裁決,認定此行為違反環保法規。
電力消耗是另一個嚴峻挑戰。一個 H100 AI 加速器功耗大約 700 W,5000 萬個處理器將消耗 35 吉瓦電力,相當于 35 座核電站的典型發電量。
即使是采用更先進的 GPU 架構,一個 50 ExaFLOPS 集群仍將需要 4.685 GW 的電力。這一需求將對美國當前的能源基礎設施提出嚴峻挑戰。
在行業對比圖中,xAI 的算力規模已呈現出陡峭的上升曲線。當 Anthropic、OpenAI 等競爭對手的同量級規劃仍停留在 2027 年的路線圖上時,xA I已在今日將其變為物理現實。
這場硅基擴張的競賽,勝負手可能不在于算法創新,而在于誰能獲得更多電力配額和土地許可。
參考資料:
https://news.futunn.com/hk/post/67546729/the-world-s-first-gw-level-computing-cluster-musk-announces
https://www.chinaaet.com/article/3000172896