中美AI對(duì)弈之下的算力難題| 巨潮

2026-06-23 14:18

文｜謝澤鋒

編輯｜楊旭然

當(dāng)AI大模型世界沿著Scaling Law向前演進(jìn)時(shí)，中國(guó)大模型卻遭遇高端芯片短缺的掣肘。

以達(dá)里奧為首的一群“OpenAI 叛將”，已經(jīng)將Anthropic公司打造為估值達(dá)到萬(wàn)億美元的全球大模型佼佼者，該公司發(fā)布的Opus 4.6已經(jīng)成為大模型的性能標(biāo)尺。

其最新的模型Mythos甚至因?yàn)?ldquo;性能太過(guò)強(qiáng)大”，而沒有被直接公開發(fā)布。其規(guī)模參數(shù)達(dá)到10萬(wàn)億（10 trillion），訓(xùn)練數(shù)據(jù)量高達(dá)300萬(wàn)億‌token，訓(xùn)練成本估算達(dá)100億美元。

美國(guó)政府甚至以“國(guó)家安全”為由，暫停了所有外國(guó)公民對(duì)這款模型的訪問(wèn)。

目前，我國(guó)最強(qiáng)模型DeepSeek V4 Pro總參數(shù)量為1.6萬(wàn)億，與美國(guó)十萬(wàn)億級(jí)的產(chǎn)品相差約6倍。而有研究表示，DeepSeek V4 Pro能力落后美國(guó)前沿約8個(gè)月。

“AI一天，地上一年”，這種代際差的根源就在于高端算力的缺失。

盡管黃仁勛、馬斯克等國(guó)際大咖對(duì)中國(guó)AI極盡夸贊之詞，但高端算力尤其是AI訓(xùn)練芯片的匱乏，如同一道深厚的溝嵌，長(zhǎng)期橫亙?cè)谥忻繟I的競(jìng)賽場(chǎng)上。

美國(guó)科技巨頭們仰仗著巨額資本開支、巨量頂級(jí)GPU集群數(shù)量、充足的人均token量，正在打一場(chǎng)富裕仗。僅Meta一家的GPU算力就超過(guò)我國(guó)所有AI企業(yè)的總和，美國(guó)科技巨頭的AI開支更是一個(gè)天文數(shù)字。

在算力需求指數(shù)級(jí)增長(zhǎng)、存儲(chǔ)芯片等硬件采購(gòu)成本持續(xù)高漲的背景下，DeepSeek等國(guó)內(nèi)大模型只能通過(guò)模型蒸餾來(lái)降本，而這也引發(fā)中美之間新一輪博弈。

高端AI芯片進(jìn)口受阻，市場(chǎng)需求井噴的情況下，該如何在滿足需求和國(guó)產(chǎn)替代尚未形成氣候之前，找到一條更加可行的發(fā)展道路，是整個(gè)中國(guó)AI產(chǎn)業(yè)領(lǐng)域都亟需思考的問(wèn)題。

本文是來(lái)自《巨潮WAVE》內(nèi)容團(tuán)隊(duì)的深度價(jià)值文章，歡迎您多平臺(tái)關(guān)注。

算力掣肘

去年底以來(lái)，摩爾線程、沐曦股份、壁仞科技、天數(shù)智芯等國(guó)產(chǎn)GPU掀起資本熱浪。然而，二級(jí)市場(chǎng)財(cái)富盛宴之下，一條不容忽視的暗線正變得越來(lái)越明晰，其引發(fā)的問(wèn)題也愈發(fā)迫切。

過(guò)去幾年，國(guó)產(chǎn)AI芯片主要集中在相對(duì)安全且較為邊緣的“推理側(cè)”，如近期豆包計(jì)劃豪購(gòu)天數(shù)智芯5萬(wàn)塊芯片用于推理運(yùn)算任務(wù)，以滿足這家中國(guó)最大AI APP終端的高頻調(diào)用。

而在AI訓(xùn)練這一算力金字塔頂端序列中，國(guó)產(chǎn)芯片目前只能參與邊緣“打雜”任務(wù)。

AI訓(xùn)練芯片主要用于人工智能模型的訓(xùn)練，期間會(huì)進(jìn)行大量的矩陣運(yùn)算和參數(shù)調(diào)整，因此需要具備強(qiáng)大的計(jì)算能力和高能效比，性能更強(qiáng)大且價(jià)格也十分高昂，如英偉達(dá)A100、H100、H200以及AMD的MI300系列等；

相較而言，推理芯片的任務(wù)要輕松許多。用于模型訓(xùn)練完成后的部署階段，主要負(fù)責(zé)執(zhí)行模型的推理任務(wù)，其對(duì)實(shí)時(shí)性要求較高，推理芯片需要在保證準(zhǔn)確率的同時(shí)，具備快速響應(yīng)和低功耗的特點(diǎn)。

一個(gè)恰當(dāng)?shù)谋扔骶褪牵?xùn)練是讓AI模型“學(xué)會(huì)知識(shí)”，推理是讓大模型“運(yùn)用知識(shí)”。在學(xué)習(xí)階段，訓(xùn)練芯片要調(diào)用巨量數(shù)據(jù)來(lái)“喂養(yǎng)”十億、萬(wàn)億乃至十萬(wàn)億級(jí)參數(shù)的動(dòng)態(tài)更新，不僅要具備強(qiáng)悍的算力，還需配置高效的帶寬和通信能力，還要保障萬(wàn)卡級(jí)集群下的穩(wěn)定性。

中美模型差距根源就在這些“看不見的地方”，尤其是高端訓(xùn)練芯片的缺席。

在大模型Scaling Law規(guī)律下，模型參數(shù)越大，算力需求相應(yīng)線性增長(zhǎng)，而指數(shù)級(jí)膨脹的算力及硬件成本開支，讓訓(xùn)練大模型成為極少數(shù)科技巨頭的“專屬游戲”。

美國(guó)科技巨頭中，僅Meta一家就計(jì)劃2026年底部署超120萬(wàn)張高端GPU，年投入超1450億美元；另?yè)?jù)測(cè)算，谷歌擁有的AI總算力相當(dāng)于500萬(wàn)塊英偉達(dá)H100，一家企業(yè)占到了全球總量的1/4。

Amazon、Microsoft、Alphabet、Meta四家公司今年的資本開支高達(dá)7250億美元，同比猛增77%，這一規(guī)模，相當(dāng)于美國(guó)全年私人國(guó)內(nèi)總投資的13%。大摩更是預(yù)測(cè)，到2027年，美國(guó)科技企業(yè)資本開支有望達(dá)到1.1萬(wàn)億美元的歷史紀(jì)錄。

目前美國(guó)掌控全球七成以上高端GPU，芯片禁令后國(guó)內(nèi)可用的高端芯片只有美國(guó)的1/8。斯坦福AI Index Report 2026報(bào)告中指出，美國(guó)數(shù)據(jù)中心數(shù)量（5427個(gè)）是中國(guó)10倍有余。

依據(jù)中國(guó)信息通信研究院（CAICT）的測(cè)算，截至2025年初，美國(guó)算力規(guī)模為2400 EFLOPS，中國(guó)1053 EFLOPS，美國(guó)是中國(guó)的2倍有余。

上述四家科技巨頭在手的算力規(guī)模，每一家單拎出來(lái)，都已經(jīng)超過(guò)中國(guó)所有AI企業(yè)之和。

這種碾壓式的算力優(yōu)勢(shì)，使美國(guó)企業(yè)可以一年內(nèi)完成十幾輪大模型迭代實(shí)驗(yàn)。

馬斯克甚至更加奢侈，旗下的xAI擁有號(hào)稱全球“首個(gè)GW級(jí)AI集群”的Colossus 2。因此他有底氣宣稱，正在同時(shí)訓(xùn)練7個(gè)模型——兩個(gè)1萬(wàn)億、兩個(gè)1.5萬(wàn)億、一個(gè)6萬(wàn)億和一個(gè)10萬(wàn)億參數(shù)模型，這種“暴力美學(xué)”，只有在算力極度充裕的情況下才能做到。

與此同時(shí)，由于美國(guó)鉗制芯片出口，在近年來(lái)出貨的高端AI芯片中，中國(guó)企業(yè)獲得的份額持續(xù)下滑（根據(jù)epoch.AI統(tǒng)計(jì)）。

可以毫不夸張地說(shuō)，算力基座的巨大差距，將導(dǎo)致中國(guó)AI長(zhǎng)期處于追趕階段，也將讓國(guó)產(chǎn)大模型追上美國(guó)同行的過(guò)程變得更加困難。

代際之差

“中國(guó)創(chuàng)新的步伐不可阻擋”，“ 誰(shuí)要是覺得中國(guó)做不出來(lái)（芯片），那就真的看走眼了。中美之間的差距只是納秒級(jí)別”。

英偉達(dá)創(chuàng)始人黃仁勛不止一次在公開場(chǎng)合稱贊中國(guó)半導(dǎo)體的進(jìn)步。

馬斯克也經(jīng)常會(huì)在X上表達(dá)相似的觀點(diǎn)——“中國(guó)一定會(huì)解決芯片卡脖子問(wèn)題，人工智能算力領(lǐng)域，必將遠(yuǎn)超全球其他國(guó)家”，“中國(guó)會(huì)贏下地球上的AI競(jìng)賽”。

科技界如雷貫耳的大佬對(duì)中國(guó)AI發(fā)展極盡溢美之詞，很容易讓人信以為真。這些言論顯然有捧殺的嫌疑。部分美國(guó)媒體不斷宣揚(yáng)中美模型差距極小的輿論，試圖混淆事實(shí)，掩蓋一些客觀真相。

對(duì)此，國(guó)內(nèi)AI相關(guān)領(lǐng)域都應(yīng)該保持清醒冷靜。

如果說(shuō)如今中國(guó)先進(jìn)大模型在解決標(biāo)準(zhǔn)化問(wèn)題時(shí)與美國(guó)競(jìng)品差別不大，那么在復(fù)雜工業(yè)和企業(yè)環(huán)境下，差距就會(huì)顯得更加明顯。

和美國(guó)Anthropic等公司的前沿模型相比，中國(guó)仍屬于追趕者。美國(guó)CAISI評(píng)估認(rèn)為，國(guó)內(nèi)最強(qiáng)的DeepSeek V4 Pro落后美國(guó)前沿約8個(gè)月。

李開復(fù)近期在接受《華爾街日?qǐng)?bào)》采訪時(shí)指出，以Anthropic推出的Claude Fable 5等美國(guó)頂尖模型為標(biāo)桿，‌美國(guó)目前領(lǐng)先中國(guó)約15個(gè)月‌。

大模型遵循Scaling Law規(guī)律，模型參數(shù)量越大、訓(xùn)練數(shù)據(jù)越多、投入的算力越大，模型的性能就越好。如今，美國(guó)最前沿大模型已進(jìn)入十萬(wàn)億參數(shù)時(shí)代，且迭代速度還在加快。

Anthropic最強(qiáng)大的Mythos已達(dá)10萬(wàn)億參數(shù)，訓(xùn)練它就要耗費(fèi)100億美元；xAI的Colossus 2正同時(shí)訓(xùn)練7個(gè)模型，含6萬(wàn)億和10萬(wàn)億參數(shù)模型；OpenAI迭代一輪4萬(wàn)億參數(shù)模型的周期僅為一個(gè)月。

中國(guó)最強(qiáng)模型DeepSeek V4 Pro總參數(shù)量為1.6萬(wàn)億，和美國(guó)十萬(wàn)億級(jí)前沿相差約6倍。

Anthrpoic旗下的Claude系列，已經(jīng)被公認(rèn)為近兩年最強(qiáng)的AI編程大模型，Mythos則又再一次刷新了公眾的認(rèn)知，其性能相比此前的旗艦Oups 4.6還要更加強(qiáng)大。

OpenBSD在業(yè)界有著最安全的系統(tǒng)的美名，結(jié)果Mythos找到了一個(gè)27年間都沒發(fā)現(xiàn)的漏洞，它還在FFmpeg、Linux內(nèi)核中尋覓到了幾年甚至十幾年都沒發(fā)現(xiàn)的漏洞，而且全程自主發(fā)現(xiàn)，沒有依靠人類。

要知道，大模型“預(yù)訓(xùn)練”決定了模型能力的上限，無(wú)法通過(guò)“后訓(xùn)練”將萬(wàn)億級(jí)別參數(shù)模型調(diào)到達(dá)到10萬(wàn)億參數(shù)模型的能力水平。而預(yù)訓(xùn)練的決定因子就是高端算力芯片，它決定了參數(shù)規(guī)模和訓(xùn)練迭代速度。

科大訊飛董事長(zhǎng)劉慶峰就坦言，目前各家頂尖大模型廠商，特別是美國(guó)的巨頭，都在建超大規(guī)模算力平臺(tái)。而國(guó)產(chǎn)算力目前確實(shí)面臨陣痛期，導(dǎo)致在訓(xùn)練超長(zhǎng)文本上下文中遇到了限制。

可見，算力差距就是中美模型之差的根源。

國(guó)產(chǎn)崛起

一家企業(yè)壟斷全球高端AI訓(xùn)練芯片90%的市場(chǎng)份額——這助力英偉達(dá)保持著全球第一大市值公司的王座。其總市值一度超過(guò)全球第三大經(jīng)濟(jì)體德國(guó)2025年的GDP。

集邦咨詢數(shù)據(jù)顯示，2026年Q1全球GPU服務(wù)器市場(chǎng)，英偉達(dá)一家吃掉68%，AMD占據(jù)5%-6%，而國(guó)產(chǎn)GPU廠商整體不足4%。

憑借先發(fā)優(yōu)勢(shì)，超強(qiáng)的技術(shù)壁壘、高速互聯(lián)、軟件生態(tài)以及綁定臺(tái)積電先進(jìn)制程，英偉達(dá)獨(dú)霸天下。在高端訓(xùn)練場(chǎng)景，英偉達(dá)GB300性能強(qiáng)于AMD MI325，也好于寒武紀(jì)思元690、摩爾線程MTT40，尤其在萬(wàn)億參數(shù)大模型訓(xùn)練中，性能強(qiáng)于競(jìng)品30%以上。

出口禁令之下，黃仁勛此前已表示，英偉達(dá)在華市場(chǎng)份額（新增）已基本歸零，僅剩存量市場(chǎng)。國(guó)產(chǎn)替代政策支持下，包括華為昇騰910、海光DCU深算2號(hào)、寒武紀(jì)思元370/590，以及摩爾、沐曦等企業(yè)相繼涌現(xiàn)。

其中昇騰910是華為最強(qiáng)算力芯片，昇騰910B算力達(dá)到640TOPS（INT8），可媲美到英偉達(dá)A100芯片。

絕對(duì)性能層面，國(guó)產(chǎn)GPU雖仍有差距，但可先從推理與邊緣場(chǎng)景入手，目前國(guó)產(chǎn)GPU基本滿足國(guó)內(nèi)政企通用推理需求，與英偉達(dá)中端產(chǎn)品差距縮小至15%-20%，具備替代可行性。

需要特別指出的是，算力性能固然重要，而其背后的技術(shù)軟件生態(tài)才是國(guó)產(chǎn)GPU的軟肋。正如CUDA才是鑄造英偉達(dá)GPU帝國(guó)的根基，中國(guó)工程院院士鄭緯民就指出，國(guó)產(chǎn)AI芯片核心問(wèn)題是生態(tài)不夠好，如果生態(tài)好，性能做到60%也有人用。

可以說(shuō)，軟件生態(tài)是GPU賽道最硬核的壁壘，在這方面英偉達(dá)的能力同樣難以替代。

CUDA生態(tài)經(jīng)過(guò)了十余年深耕，已經(jīng)擁有超400萬(wàn)開發(fā)者、數(shù)十萬(wàn)開源模型、全品類第三方工具鏈，覆蓋AI訓(xùn)練、推理、圖形渲染、科學(xué)計(jì)算，生態(tài)壁壘強(qiáng)悍無(wú)二。

IDC數(shù)據(jù)顯示，目前全球95%以上的AI模型基于CUDA生態(tài)開發(fā)。而國(guó)產(chǎn)GPU在依托政策支持下，需要和產(chǎn)業(yè)鏈進(jìn)行長(zhǎng)期協(xié)同，需要媒體輿論、資本市場(chǎng)給予足夠的耐心。

今年1月，智譜就聯(lián)合華為開源新一代圖像生成模型GLM-Image，該模型基于華為昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架，完成從數(shù)據(jù)處理到模型訓(xùn)練的全流程閉環(huán)，是首個(gè)依托國(guó)產(chǎn)芯片實(shí)現(xiàn)全程訓(xùn)練的SOTA多模態(tài)模型；

摩爾線程還與北京智源人工智能研究院一起，基于MTT S5000智算集群與FlagOS-Robo框架，完成智源自研具身大腦模型RoboBrain 2.5的全流程訓(xùn)練。這一成果首次驗(yàn)證了，國(guó)產(chǎn)算力集群在具身智能大模型訓(xùn)練中的可用性。

可以看出，國(guó)產(chǎn)GPU在適配性和生態(tài)構(gòu)建方面已經(jīng)有所突破，并正從推理側(cè)的“單點(diǎn)突破”，邁向訓(xùn)練側(cè)的“逐步適配”，這已是一種長(zhǎng)足進(jìn)步。

總結(jié)

整體上看，在海外先進(jìn)芯片進(jìn)口受阻的背景下，不妨“中西結(jié)合”用兩條腿來(lái)走路，同時(shí)重點(diǎn)扶持國(guó)內(nèi)算力芯片，以滿足迫切的市場(chǎng)需求。

需求的真實(shí)性毋庸置疑，“泡沫論”仍然存在，但聲音并沒有越來(lái)越大。全球市場(chǎng)對(duì)于AI建設(shè)的熱情，已經(jīng)超越了此前以往任何一個(gè)產(chǎn)業(yè)早期的發(fā)展歷程。

今年以來(lái)，全球資本市場(chǎng)再度掀起超級(jí)AI周期，三星、sk海力士、博通、臺(tái)積電股價(jià)屢創(chuàng)新高，國(guó)內(nèi)市場(chǎng)上，以寒武紀(jì)等代表的硬科技也是漲勢(shì)兇猛，光模塊巨頭中際旭創(chuàng)市值更是一度超過(guò)茅臺(tái)。

回顧韓國(guó)半導(dǎo)體發(fā)展史，韓國(guó)以舉國(guó)之力支持存儲(chǔ)芯片產(chǎn)業(yè)，熬過(guò)至暗時(shí)刻，并最終擊敗日本，成為世界存儲(chǔ)產(chǎn)業(yè)絕對(duì)王者。

無(wú)論存儲(chǔ)芯片、手機(jī)芯片、乃至當(dāng)下的AI芯片，中國(guó)都還處于追趕階段，這絕非一朝一夕之功。但憑借巨大的市場(chǎng)、不斷涌現(xiàn)的AI人才、龐大的資本實(shí)力，國(guó)產(chǎn)GPU已經(jīng)開始展露出一定的適配性，能夠解決很多AI企業(yè)的真實(shí)需要。

在這場(chǎng)關(guān)于國(guó)運(yùn)的AI對(duì)弈中，中美兩國(guó)既是對(duì)手，同時(shí)也有對(duì)方所需的技術(shù)、市場(chǎng)和資源。

原文標(biāo)題 : 中美AI對(duì)弈之下的算力難題| 巨潮