剛剛,英偉達把 H100 送上軌道,宣布在太空跑起數據中心級 GPU。緊接著,谷歌 Project Suncatcher 官宣,要在近地軌道用 TPU 做分布式機器學習試驗,并計劃在 2027 年初發射原型星。
Project Suncatcher(捕光者計劃)是一個基于太空的可擴展 AI 基礎設施系統設計。谷歌 CEO Sundar Pichai 表示,太陽發出的能量比人類總電力生產量高出 100 萬億倍,Project Suncatcher 計劃可以更好地利用太陽的能量來驅動 AI。
TPU 的太空版圖
11 月 3 日,太空數據中心初創公司 Starcloud 的衛星 Starcloud-1 成功入軌,搭載了 NVIDIA 的 H100 GPU 并已進入運行狀態。
在 NVIDIA 邁出第一步之后,谷歌正式發起 Project Suncatcher。該研究計劃其核心為:在近地軌道部署一系列太陽能衛星(衛星星座),搭載其自研的 TPU(張量處理單元),并通過自由空間光通信(星際激光鏈路)構建分布式機器學習系統。
官方披露,在適當軌道上,太陽能電池板效率可達地面 8 倍,并且可幾乎持續發電。
為驗證系統可行,谷歌計劃與 Planet Labs 合作,于 2027 年初發射兩顆原型衛星。
谷歌也在論文《Towards a future space-based, highly scalable AI infrastructure system design》中分享了一些早期研究成果,包括衛星間的高帶寬通信、軌道動力學以及輻射對計算的影響。
“
若將 AI 視為新一代基礎設施,其算力與能源需求勢必持續增長。太陽是最強大且可持續的能量源,因此未來的 AI 系統或將直接在太空中運行。研究團隊提出一套基于太陽能衛星群的機器學習架構:衛星搭載谷歌 TPU,通過自由空間光通信互聯,在軌形成高帶寬、低延遲的計算網絡。模擬顯示,一個半徑約 1 公里的 81 星編隊可穩定運行,并通過機器學習模型精確控制軌道。Trillium TPU 經輻射測試可在 5 年任務周期內保持穩定,無永久性損傷。研究還指出,若發射成本降至 每千克約 200 美元,太空算力中心的建設將具備現實可行性。
在谷歌討論能否在太空構建 AI 基礎設施的同時,還面臨三個關鍵挑戰:
星間通信帶寬:要與地面數據中心匹敵,星間激光鏈路需支持數 Tbps 級別帶寬。為此,衛星必須非常密集地編隊飛行(公里級甚至更近)才能實現鏈接預算。
熱管理與可靠性:在真空中散熱方式不同于地面,對芯片系統、結構設計、熱通道的要求極高。谷歌強調在軌可靠性仍為重大難題。
經濟可行性:目前發射成本仍高,谷歌估算若單千克發射成本下降至約 200 美元,則天基數據中心的整體成本可接近地面系統。
影響與展望
若太空計算成為現實,地面用于大規模機房的土地、電力、水冷系統需求可大幅降低,從而釋放城市周邊資源壓力。
針對對地球觀測、海洋監測、災害預警等場景,近軌算力意味著更快響應和就地處理能力,有助于減少數據回傳時延。
隨著模型規模繼續攀升,地面算力擴張可能遇到邊際收益遞減。太空或為下一個指數級增長的空間,可能催生基于衛星算力的云/邊緣混合架構。
但是,未來仍有三大變量需要持續觀察:
發射與維護成本曲線:當前火箭發射仍昂貴,衛星壽命、維修難度、軌道碎片風險也高。成本若難以下降,天基算力仍傾向“錦上添花”而非主流。
可持續運維 &安全監管:太空算力擴展需考慮碎片清理、太空環境保護、國際合規、數據安全及網絡攻防新維度。
網絡生態與地面融合能力:在軌算力若不能與地面數據中心、高速地面光纜網絡、云服務無縫融合,其優勢將受限。星間通信、地面回傳、算力調度需形成完整體系。
下一個五到十年,或許我們會見證由數十顆、甚至數百顆太陽能驅動衛星組成的“云端”機房體系,在地球上方默默運行。AI 模型訓練將不僅在地球機房、也可能在近地軌道、甚至更遠的太空平臺完成。
參考資料:
https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/?utm_source=chatgpt.com