成人免费午夜精品一区二区-亚洲视频在线观看久久-国产原创自拍看在线视频-这里只有精品自拍偷拍亚洲色图-亚洲变态另类色图天堂网-国产欧美日韩亚洲一区-国产精品自拍35页-男人插入女人下面的真实视频-蜜桃臀一区二区三区精品视频

訂閱
糾錯
加入自媒體

AI超節(jié)點時代的交換機革命

圖片

AI大模型參數(shù)規(guī)模持續(xù)增長,單卡算力與顯存的物理上限,正倒逼AI訓(xùn)練集群規(guī)模持續(xù)擴容。在這場AI算力軍備競賽中,網(wǎng)絡(luò)性能早已成為決定集群算力釋放效率的關(guān)鍵。對于超大參數(shù)規(guī)模的AI模型而言,更高的網(wǎng)絡(luò)帶寬,能夠直接大幅壓縮模型訓(xùn)練的完成周期。

01

AI算力釋放的技術(shù)底座:RDMA

要突破AI集群的網(wǎng)絡(luò)性能瓶頸,RDMA技術(shù)已成為行業(yè)公認的解決方案,而這一切的起點,源于GPU通用計算時代的通信瓶頸破局。

GPU Direct RDMA是2009年由Nvidia和Mellanox共同研發(fā)的軟硬件協(xié)同創(chuàng)新技術(shù)。當時GPU已經(jīng)從圖形渲染轉(zhuǎn)向通用計算(GPGPU),成為HPC的核心加速器。GPU計算能力雖然在持續(xù)提升,但因為集群中不同節(jié)點之間的GPU間傳輸數(shù)據(jù),仍需要CPU負責,通信存在瓶頸,所以GPU的計算能力的優(yōu)勢受其拖累不能完全發(fā)揮,從而導(dǎo)致集群整體效率不高。NVIDIA當時清晰地認識到必須解決這個問題,所以開始與合作伙伴Mellanox一起探索GPU與網(wǎng)卡的直接通信的解決方案GPU Direct over InfiniBand。后續(xù)該技術(shù)方案逐漸成熟,并于2012年隨Kepler架構(gòu)GPU和CUDA 5.0一起發(fā)布,并被正式命名為GPU Direct RDMA。

在此之前,傳統(tǒng)數(shù)據(jù)中心的數(shù)據(jù)傳輸,始終受困于TCP/IP架構(gòu)的原生缺陷。在傳統(tǒng)傳輸方案中,內(nèi)存數(shù)據(jù)訪問與網(wǎng)絡(luò)數(shù)據(jù)傳輸分屬兩套語義集合,數(shù)據(jù)傳輸?shù)暮诵墓ぷ鞲叨纫蕾嘋PU:應(yīng)用程序先申請資源、通知Socket,再由內(nèi)核態(tài)驅(qū)動程序完成TCP/IP報文封裝,最終通過NIC網(wǎng)絡(luò)接口發(fā)送至對端。數(shù)據(jù)在發(fā)送節(jié)點需要依次經(jīng)過Application Buffer、Socket Buffer、Transport Protocol buffer的多次拷貝,到達接收節(jié)點后,還要經(jīng)過同等次數(shù)的反向內(nèi)存拷貝,完成解封裝后才能寫入系統(tǒng)物理內(nèi)存。

這種傳統(tǒng)傳輸方式,帶來了三個問題:一是多次內(nèi)存拷貝導(dǎo)致傳輸時延居高不下;二是TCP/IP協(xié)議棧的報文封裝全靠驅(qū)動軟件完成,CPU負載極高,其性能直接成為傳輸帶寬、時延等性能的瓶頸;三是應(yīng)用程序在用戶態(tài)與內(nèi)核態(tài)之間的頻繁切換,進一步放大了數(shù)據(jù)傳輸?shù)臅r延與抖動,嚴重制約網(wǎng)絡(luò)傳輸性能。

RDMA(Remote Direct Memory Access,遠程直接內(nèi)存訪問)技術(shù),正是為破解上述痛點應(yīng)運而生。它通過主機卸載與內(nèi)核旁路技術(shù),讓兩個應(yīng)用程序能夠在網(wǎng)絡(luò)上實現(xiàn)可靠的直接內(nèi)存到內(nèi)存數(shù)據(jù)通信:應(yīng)用程序發(fā)起數(shù)據(jù)傳輸后,由RNIC硬件直接訪問內(nèi)存并將數(shù)據(jù)發(fā)送至網(wǎng)絡(luò)接口,接收節(jié)點的NIC則可將數(shù)據(jù)直接寫入應(yīng)用程序內(nèi)存,全程無需CPU與內(nèi)核的深度介入。

憑借這些特性,RDMA已成為高性能計算、大數(shù)據(jù)存儲、機器學習等對低延遲、高帶寬、低CPU占用有嚴苛要求的領(lǐng)域,核心的互聯(lián)技術(shù)之一。而RDMA技術(shù)協(xié)議的標準化,也為不同廠商設(shè)備的互聯(lián)互通提供了統(tǒng)一規(guī)范,推動技術(shù)從概念走向規(guī)模化商用。目前,RDMA主流實現(xiàn)方案分為三類:InfiniBand協(xié)議、iWARP協(xié)議,以及RoCE協(xié)議(含RoCE v1與RoCE v2兩個版本)。

隨著AI模型參數(shù)從數(shù)十億級躍升至數(shù)萬億級,單GPU內(nèi)存容量持續(xù)擴容的同時,服務(wù)器間的數(shù)據(jù)傳輸效率,已成為決定系統(tǒng)擴展能力、模型訓(xùn)練目標能否實現(xiàn)的關(guān)鍵要素。RDMA技術(shù)的價值也愈發(fā)凸顯,能否高效訪問其他服務(wù)器的內(nèi)存與資源,直接決定了系統(tǒng)的可擴展性,而直接訪問遠端內(nèi)存的能力,能直接提升AI模型的整體訓(xùn)練性能。正是借助RDMA技術(shù),數(shù)據(jù)才能快速送抵GPU,最終有效縮短作業(yè)完成時間(Job Completion Time,簡稱JCT)。

02

InfiniBand和以太網(wǎng)之爭

在AI智算網(wǎng)絡(luò)的發(fā)展歷程中,機柜間互聯(lián)最早采用成熟的以太網(wǎng)方案,而隨著低時延需求的升級,InfiniBand憑借性能優(yōu)勢快速崛起。作為原生RDMA協(xié)議的代表,InfiniBand由NVIDIA子公司Mellanox主導(dǎo)推動,能提供低于2微秒的極低傳輸時延,同時實現(xiàn)零丟包,堪稱RDMA領(lǐng)域的性能領(lǐng)導(dǎo)者。

圖片

為了將InfiniBand的RDMA優(yōu)勢遷移至以太網(wǎng)生態(tài),RoCE協(xié)議應(yīng)運而生。其中RoCE v1僅能在二層子網(wǎng)內(nèi)運行,而RoCE v2通過IP/UDP封裝實現(xiàn)了跨子網(wǎng)路由,大幅提升了部署靈活性,盡管約5微秒的時延仍高于原生InfiniBand,卻讓以太網(wǎng)具備了支撐AI訓(xùn)練高帶寬、低延遲需求的能力。

為了撼動InfiniBand在AI領(lǐng)域的主導(dǎo)地位,2025年6月,博通、微軟、谷歌等行業(yè)巨頭聯(lián)合推出UEC 1.0規(guī)范,旨在重構(gòu)以太網(wǎng)協(xié)議棧,使其性能逼近InfiniBand,標志著以太網(wǎng)對InfiniBand發(fā)起了全面反擊。超以太網(wǎng)聯(lián)盟(Ultra Ethernet Consortium,UEC)明確,UEC 1.0規(guī)范能在包含網(wǎng)卡、交換機、光纖、電纜組成的全網(wǎng)絡(luò)堆棧層級,提供高性能、可擴展、可互操作的解決方案,從而實現(xiàn)多供應(yīng)商無縫集成,加速全生態(tài)創(chuàng)新。該規(guī)范不僅適配以太網(wǎng)與IP的現(xiàn)代RDMA能力,還支持數(shù)百萬級設(shè)備的端到端可擴展性,同時徹底規(guī)避了供應(yīng)商鎖定的問題。

目前,阿里巴巴、百度、華為、騰訊等國內(nèi)科技企業(yè)均已加入UEC聯(lián)盟,共同推進標準落地。除了參與全球標準化建設(shè),國內(nèi)企業(yè)還在同步研發(fā)自主可控的橫向擴展架構(gòu),均以低延遲、零丟包為核心目標,直接對標InfiniBand的性能表現(xiàn)。

從產(chǎn)業(yè)落地的維度來看,兩條技術(shù)路線的優(yōu)劣勢十分清晰。RoCE v2方案依托以太網(wǎng)架構(gòu),不僅具備RDMA高帶寬、低時延的傳輸性能,還擁有極強的設(shè)備互聯(lián)兼容性與適配性,部署靈活且成本優(yōu)勢顯著。相比InfiniBand,基于以太網(wǎng)的RDMA方案,在低成本、高可擴展性上擁有巨大優(yōu)勢。

網(wǎng)絡(luò)可用性直接決定GPU集群算力的穩(wěn)定性,而AI技術(shù)的爆發(fā),正推動數(shù)據(jù)中心交換機向更高速率持續(xù)迭代。AI大模型參數(shù)量的指數(shù)級增長,帶來了算力需求的規(guī)模化提升,但大集群并不等同于大算力。為了壓縮訓(xùn)練周期,大模型訓(xùn)練普遍采用分布式訓(xùn)練技術(shù),而RDMA正是繞過操作系統(tǒng)內(nèi)核、降低卡間通信時延的核心,目前主流落地的正是InfiniBand與RoCE v2兩大方案。其中InfiniBand方案時延更低,但成本偏高,且供應(yīng)鏈高度集中于英偉達。根據(jù)Dell‘Oro Group的預(yù)測,到2027年,以太網(wǎng)在AI智算網(wǎng)絡(luò)的市場占比將正式超越InfiniBand。

03

超節(jié)點爆發(fā),高端交換機迎來黃金發(fā)展期

隨著 AI 大模型參數(shù)規(guī)模邁入萬億量級,算力需求已從單純 GPU 堆疊,轉(zhuǎn)向全維度系統(tǒng)架構(gòu)重構(gòu)。受單芯片物理功耗密度、互連帶寬及內(nèi)存容量瓶頸制約,算力增長邊際效益持續(xù)遞減。當前研究與工程實踐均表明,系統(tǒng)級協(xié)同架構(gòu)(如高帶寬域互聯(lián))是突破單芯片性能上限的主要技術(shù)路徑,其根本動因在于單芯片物理極限已成為制約算力發(fā)展的核心瓶頸。

當模型規(guī)模遠超單芯片算力與顯存容量,傳統(tǒng)分布式訓(xùn)練面臨通信開銷激增、算力利用率大幅下滑等難題。在此背景下,依托高速無損互聯(lián)技術(shù),將數(shù)十乃至上百顆 GPU 芯片邏輯整合為統(tǒng)一計算單元,形成對外等效的 “超級計算機”,已成為全球主流 AI 基礎(chǔ)設(shè)施廠商與科研機構(gòu)公認的下一代算力架構(gòu)突破方向。

AI 超節(jié)點的爆發(fā),為交換機市場打開全新增量空間。相較于傳統(tǒng)服務(wù)器,AI 服務(wù)器新增 GPU 模組,需通過專用網(wǎng)卡與服務(wù)器、交換機實現(xiàn)高效互聯(lián),完成節(jié)點間高速通信。這使得 AI 服務(wù)器組網(wǎng)在傳統(tǒng)架構(gòu)基礎(chǔ)上,新增后端網(wǎng)絡(luò)(Back End)層級,單臺服務(wù)器網(wǎng)絡(luò)端口數(shù)量顯著提升,直接拉動高速交換機、網(wǎng)卡、光模塊、光纖光纜等全產(chǎn)業(yè)鏈需求。

與此同時,超節(jié)點規(guī)模化部署,加速網(wǎng)絡(luò)架構(gòu)橫向擴展(Scale out)。萬卡、十萬卡乃至百萬卡級別的超大集群組網(wǎng),催生海量高速交換機需求。隨著 AI 模型參數(shù)持續(xù)擴容,集群規(guī)模從百卡、千卡級快速向萬卡、十萬卡級躍遷,推動組網(wǎng)架構(gòu)從 2 層向 3 層、4 層持續(xù)演進,進一步放大高速交換機市場缺口。

全球AI產(chǎn)業(yè)的高速發(fā)展,讓AI集群網(wǎng)絡(luò)對組網(wǎng)架構(gòu)、網(wǎng)絡(luò)帶寬、網(wǎng)絡(luò)時延提出了前所未有的嚴苛要求,也推動以太網(wǎng)交換機這一核心通信設(shè)備,朝著高速率、多端口、白盒化、光交換機等方向持續(xù)迭代升級。而以太網(wǎng)本身深厚的產(chǎn)業(yè)根基與龐大的生態(tài)廠商陣容,也讓其在AI網(wǎng)絡(luò)中的市場占比擁有持續(xù)提升的空間。盡管目前InfiniBand憑借低延遲、擁塞控制、自適應(yīng)路由等機制,仍主導(dǎo)著AI后端網(wǎng)絡(luò)市場,但隨著以太網(wǎng)部署方案的持續(xù)優(yōu)化,以及超以太網(wǎng)聯(lián)盟的生態(tài)加速完善,未來以太網(wǎng)方案的市場占比將持續(xù)攀升,直接帶動以太網(wǎng)交換機的需求增長。

04

全行業(yè)入局,國內(nèi)外廠商搶灘AI交換機賽道

AI交換機的巨大市場機遇,吸引了全球科技巨頭與國內(nèi)廠商的全面布局,從芯片到整機、從傳統(tǒng)設(shè)備商到互聯(lián)網(wǎng)企業(yè),一場圍繞AI交換機的技術(shù)與市場爭奪戰(zhàn)已然打響。

國際巨頭中,英偉達的布局最為激進。其推出的Spectrum-x平臺,是一套專為超大規(guī)模集群場景優(yōu)化的以太網(wǎng)方案,憑借這一產(chǎn)品,英偉達僅用不到三年時間,便在交換機這一傳統(tǒng)IT賽道實現(xiàn)了跨界突破。同時,英偉達已將下一代Rubin AI平臺全面轉(zhuǎn)向CPO(共封裝光學)架構(gòu),并宣布進入量產(chǎn)階段,讓CPO從實驗室概念,正式成為未來AI數(shù)據(jù)中心的“標準配置”。

博通也在去年推出了全球首款102.4 Tbps 交換機芯片 Tomahawk 6。該系列單芯片提供 102.4 Tbps 的交換容量,是目前市場上以太網(wǎng)交換機帶寬的兩倍。Tomahawk 6 專為下一代可擴展和可擴展 AI 網(wǎng)絡(luò)而設(shè)計,通過支持 100G / 200G SerDes 和共封裝光學模塊(CPO),提供更高的靈活性。它提供業(yè)界最全面的 AI 路由功能和互連選項,旨在滿足擁有超過一百萬個 XPUs 的 AI 集群的需求。

國內(nèi)傳統(tǒng)設(shè)備廠商也快速跟進,接連推出旗艦級產(chǎn)品。

華為于2025年發(fā)布了兩款旗艦產(chǎn)品:業(yè)界最高密的128×800GE 100T盒式以太交換機CloudEngine XH9330,憑借行業(yè)領(lǐng)先的高密端口設(shè)計,突破了AI集群的規(guī)模上限;業(yè)界首款128×400GE 51.2T液冷盒式以太交換機CloudEngine XH9230,助力企業(yè)打造綠色節(jié)能、超大規(guī)模的全液冷算力集群。

紫光股份旗下新華三,于2024年率先發(fā)布1.6T智算交換機H3C S98258C-G,支持全光網(wǎng)絡(luò)3.0解決方案,單端口速率突破1.6T,整機交換容量達204.8T,可滿足3.2萬臺AIGC節(jié)點的通信需求。該產(chǎn)品搭載自研智算引擎,時延可低至0.3微秒,通過了谷歌等國際客戶的驗證,成為其OCS整機核心供應(yīng)商。此外,公司還推出了全球首款51.2T 800G CPO硅光數(shù)據(jù)中心交換機,為1.6T產(chǎn)品的技術(shù)迭代奠定了基礎(chǔ)。

銳捷網(wǎng)絡(luò)完成了基于CPO技術(shù)的51.2T交換機商用互聯(lián)方案演示,該方案憑借超高集成度、顯著的能效提升與可維護性設(shè)計,完美適配AI訓(xùn)練及超大規(guī)模計算集群的高速互聯(lián)需求,為未來800G和1.6T網(wǎng)絡(luò)升級提供了可行路徑。其51.2T CPO交換機采用博通Bailly 51.2Tbps CPO芯片,在4RU空間內(nèi)實現(xiàn)了128個400G FR4光交換端口,大幅提升了設(shè)備端口密度與帶寬容量,核心亮點在于通過光引擎與交換芯片的共封裝,大幅縮短電互聯(lián)路徑,降低信號衰減與傳輸功耗。

中興通訊推出了國產(chǎn)超高密度230.4T框式交換機,以及全系列51.2T/12.8T盒式交換機,性能處于行業(yè)領(lǐng)先水平,已在運營商、互聯(lián)網(wǎng)、金融等領(lǐng)域的百/千/萬卡智算集群實現(xiàn)規(guī)模商用。

除了傳統(tǒng)交換機廠商,互聯(lián)網(wǎng)企業(yè)也紛紛下場,開啟了自研交換機的進程,成為賽道中不可忽視的重要力量。

騰訊早在2022年便啟動了CPO交換機的研發(fā),同年推出并點亮業(yè)界首款25.6T CPO數(shù)據(jù)中心交換機——Gemini。該產(chǎn)品集成12.8T光引擎,提供16個800G光接口,剩余12.8T交換容量通過面板32個QSFP112可插拔接口提供。

字節(jié)跳動在火山引擎正式上線102.4T自研交換機,以此支撐新一代HPN 6.0架構(gòu),可滿足十萬卡級GPU集群的高效互聯(lián)需求。該交換機實現(xiàn)全端口LPO支持,在4U空間內(nèi)部署了128個800G OSFP端口。

阿里巴巴在云棲大會展出了自研的102.4T國產(chǎn)交換機,率先將3.2T NPO技術(shù)應(yīng)用于新一代國產(chǎn)四芯片交換機。該設(shè)備單機集成4顆25.6T國產(chǎn)交換芯片,總交換容量達102.4T,還可通過升級至4×102.4T芯片,平滑演進至409.6T平臺。

相比線性驅(qū)動可插拔光模塊(LPO),近封裝光學(NPO)能提供更高的帶寬密度,同時降低對主芯片SerDes性能的要求,更利于產(chǎn)業(yè)生態(tài)發(fā)展;而相比共封裝光學(CPO),NPO采用標準LGA連接器,保留了光模塊的開放解耦特性,避免了主芯片與光引擎的綁定,更易被終端用戶采納。

05

為什么互聯(lián)網(wǎng)企業(yè)要做交換機?

互聯(lián)網(wǎng)企業(yè)紛紛下場自研交換機,并非偶然,而是技術(shù)趨勢與市場需求的共同驅(qū)動。

技術(shù)層面,交換機白盒化的發(fā)展,為互聯(lián)網(wǎng)企業(yè)自研提供了基礎(chǔ)。白盒交換機實現(xiàn)了硬件與軟件的解耦,硬件由開放化組件構(gòu)成,軟件則可由用戶或第三方自由選擇、定制,具備高靈活性、高可擴展性、低采購與運維成本的優(yōu)勢,目前已在互聯(lián)網(wǎng)廠商與運營商網(wǎng)絡(luò)中廣泛應(yīng)用,產(chǎn)業(yè)生態(tài)日趨成熟。銳捷網(wǎng)絡(luò)作為白盒交換機領(lǐng)域的早期布局者,便與阿里、騰訊、字節(jié)跳動等互聯(lián)網(wǎng)企業(yè)深度合作,通過JDM(聯(lián)合設(shè)計制造)模式參與下一代交換機研發(fā),2024年接連中標多家頭部互聯(lián)網(wǎng)客戶的研發(fā)標,推動白盒交換機在互聯(lián)網(wǎng)數(shù)據(jù)中心的規(guī);渴。而白盒交換機的軟硬件解耦特性,大幅降低了自研的技術(shù)門檻,也成為大型互聯(lián)網(wǎng)企業(yè)降低建網(wǎng)成本的關(guān)鍵。

市場層面,超大規(guī)模數(shù)據(jù)中心運營商面臨著與傳統(tǒng)企業(yè)完全不同的網(wǎng)絡(luò)需求:一方面,阿里、騰訊、字節(jié)等企業(yè)擁有數(shù)萬甚至數(shù)十萬級的服務(wù)器規(guī)模,對網(wǎng)絡(luò)的可擴展性、可運維性有極致要求;另一方面,AI訓(xùn)練集群尤其是萬卡級GPU集群,對網(wǎng)絡(luò)的低延遲、高帶寬有著嚴苛的定制化需求。傳統(tǒng)交換機廠商提供的標準化產(chǎn)品,難以完全匹配這些個性化、極致化的業(yè)務(wù)需求,最終促使互聯(lián)網(wǎng)企業(yè)走向自研之路。

而自研交換機不僅能深度適配自身業(yè)務(wù)場景,實現(xiàn)網(wǎng)絡(luò)能力的定制化優(yōu)化,又能大幅降低集群建設(shè)的總體擁有成本(TCO),在AI算力軍備競賽中,掌握網(wǎng)絡(luò)底層能力的主動權(quán)。

       原文標題 : AI超節(jié)點時代的交換機革命

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號