趨勢丨把大模型刻進AI芯片,極致構思背后看迭代周期博弈
前言:
2026年2月,一家名為Taalas的多倫多初創(chuàng)公司,宣布完成1.69億美元新一輪融資,累計融資約2.19億美元,并同步亮相其首款芯片HC1。
Taalas的MSIC路線“炸掉內(nèi)存墻”
HC1運行Llama 3.1 8B的速度達到驚人的17,000 tokens/秒,是英偉達B200的數(shù)十倍,成本卻僅為后者的1/20。這場“模型即芯片”的豪賭,撕開了AI算力市場的一道裂痕。
自1945年馮·諾依曼架構確立以來,計算與存儲分離的設計統(tǒng)治了芯片行業(yè)八十年——數(shù)據(jù)需要不斷在內(nèi)存和計算單元之間“搬運”,這道“內(nèi)存墻”成為AI算力的核心瓶頸。Taalas發(fā)明了“Mask ROM recall fabric + SRAM”架構,將Llama 3.1 8B的數(shù)十億參數(shù)通過掩模ROM固化在硅片金屬層中,同時保留部分SRAM區(qū)域用于處理KV緩存和LoRA微調(diào)。
HC1基于臺積電6nm工藝,面積815mm²,集成了530億顆晶體管,功耗僅200W左右,10張卡組成的系統(tǒng)也只需2.5千瓦空氣冷卻。Taalas CEO Ljubisa Bajic曾是AMD與英偉達架構師,也是明星芯片公司Tenstorrent的創(chuàng)始人,他帶領25人團隊、僅用3000萬美元研發(fā)成本,兩年半時間造出了這顆“反常識”的芯片。
固化硬件的代價與“刻舟求劍”的風險
上世紀90年代末,3dfx Voodoo顯卡曾是3D圖形領域的霸主,它將3D渲染的光柵步驟做成“固定管線”刻死在電路中。但到了1999年,當開發(fā)者開始探索可編程著色器以實現(xiàn)更豐富的3D效果時,Voodoo因硬件固化無法支持新功能,最終被英偉達GeForce取代,公司走向破產(chǎn)。
2016-2018年的AI芯片潮中,一大批初創(chuàng)公司針對CNN(卷積神經(jīng)網(wǎng)絡)設計了專門的“卷積加速引擎”,在人臉識別、自動駕駛等圖像任務中表現(xiàn)搶眼。但2017年《Attention is All You Need》發(fā)布后,Transformer架構徹底改變了AI的底層數(shù)學邏輯,那些將CNN固化在芯片里的企業(yè),因缺乏通用矩陣計算能力而黯然退場。
對比這兩個案例可以發(fā)現(xiàn),硬件固化的程度決定了風險等級:Voodoo固化的是渲染管線,雖畫面落后但依然能用;CNN芯片固化的是算法,適用場景大幅收窄但仍有價值;而Taalas固化的是特定的模型版本——一旦模型更新,芯片便可能直接淪為“電子垃圾”。模型換了,芯片就是廢鐵,這種極致綁定讓Taalas押注于一個前提:AI算法已經(jīng)進入“平臺期”,架構不再劇烈變化。
專用芯片在垂直場景中的生存邏輯
盡管風險極高,但Taalas并非在追逐一個虛無的夢想。在真實的商業(yè)世界里,并非所有場景都需要一個通曉萬物的“通用神靈”。大量垂直場景需要的,是一個極其穩(wěn)定、便宜、速度極快的“電子牛馬”,把手頭那件事干到極致。
Taalas的HC1精準命中了三類對延遲敏感、模型版本穩(wěn)定的應用場景:
企業(yè)專用模型:金融、醫(yī)療、法律等行業(yè)長期使用固定版本的私有化模型,推理成本降至傳統(tǒng)方案的1/266,足以讓許多此前不可行的AI應用具備商業(yè)價值。
邊緣推理:人形機器人、自動駕駛汽車、智能手機等設備對實時性要求極高,且無需運行多模型。汽車遇到臨時修路等突發(fā)狀況時,需要低于1毫秒的“本能推理反射”,固化了大模型的專用芯片能實現(xiàn)本地極速響應。
大規(guī)模客服:電商、運營商的智能客服常年運行標準化對話模型,HC1的“秒級響應”能顯著提升用戶體驗,同時將運營成本削減90%以上。
這種“互補而非替代”的定位,為Taalas在英偉達的陰影下找到了生存空間。
模型迭代與硬件交付的時間賽跑
然而,定位清晰并不能消除商業(yè)模式的核心不確定性——模型迭代周期與芯片開發(fā)周期之間的巨大錯位。
如今,開源大模型的進化是以“月”甚至“周”為單位的。但一顆先進制程的芯片,從架構設計到流片量產(chǎn),通常需要18到24個月。當芯片走下產(chǎn)線時,它所“凍結”的模型在日新月異的算法世界里,將淪為“古董”,且一旦固化模型存在致命缺陷,整批芯片只能報廢。
Taalas對此給出的防守策略是“極速物理迭代”。他們與臺積電合作開發(fā)了“兩層金屬”方案——改變模型不需要重新設計整個底層硅片,只需更改芯片最上層的兩層金屬掩模,將新模型的硬件化周期壓縮到兩個月左右。同時,HC1保留了LoRA微調(diào)的支持,企業(yè)可以在物理大模型外部掛載小型的“知識補丁”來調(diào)整特定任務表現(xiàn)。
從“通用主導”走向“通用與專用并存”
在推理成為AI算力新主戰(zhàn)場的2026年,市場正在從“通用主導”向“通用與專用并存”的分裂格局演進。
英偉達通過200億美元收購Groq的推理技術,已釋放出“通用巨頭向專用賽道妥協(xié)”的信號。與此同時,Etched選擇固化Transformer架構,Groq采用純SRAM的LPU路線,Cerebras用晶圓級引擎突破內(nèi)存墻,Tenstorrent擁抱RISC-V的可編程架構——多元技術路線各顯神通,共同蠶食著曾經(jīng)固若金湯的推理市場。
未來的AI算力版圖,或許將呈現(xiàn)“三分天下”的格局:英偉達GPU和通用加速器主導,用于探索AGI的智力邊界,處理最復雜、最多變的未知任務;Taalas這類“物理硬化”芯片滲透進每一個路燈、家電、工業(yè)機器人中;谷歌TPU、微軟Azure Maia等云廠商自研芯片深耕云內(nèi)部署。
結語:
Taalas的HC1證明,當大模型變成像電阻、電容一樣廉價且隨處可見的電子元器件時,AI真正的大爆發(fā)才算拉開大幕。
網(wǎng)絡援引:
鈦媒體:《1.69億融資押注專用芯片:Taalas要靠“去GPU化”改寫AI算力格局》
維科網(wǎng):《挑戰(zhàn)英偉達算力霸權?多倫多一家創(chuàng)企將大模型“刻進”芯片》
芯智訊:《17000 Tokens/s!48倍碾壓英偉達B200!這家把大模型“刻”進芯片的公司,什么來頭?》
搜狐:《全球芯片圈炸鍋:這個“瘋子”把模型刻進硅片,80年架構說廢就廢 》
原文標題 : 趨勢丨把大模型刻進AI芯片,極致構思背后看迭代周期博弈
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
2 華為,重大突破!
- 1 人形機器人“第一股”來了!宇樹科技即將上會
- 2 全球股市陷AI獨大結構性瘋狂
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉中國機器人
- 7 Figure AI 交付突破350臺,陪跑特斯拉會迎來iPhone 時刻嗎?
- 8 “國產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗
- 9 Anthropic發(fā)布2028年全球AI領導力的兩種情景報告
- 10 特斯拉宣布監(jiān)督版FSD登陸中國?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市


分享













