英偉達殺瘋了!DeepSeek V4推理成本狂砍80%
快科技7月2日消息,英偉達宣布其Blackwell平臺通過全棧推理軟件優化,DeepSeek V4模型的單Token成本在一個月內最多降至五分之一。
隨著企業從AI試點走向生產型AI工廠,基礎設施決策已從芯片規格峰值轉向每元、每瓦特及延遲目標內能交付多少有用Token。

英偉達通過三層架構實現Token成本的大幅下降。生產運營層負責分布式服務編排與自動擴縮容,應用加速層通過計算通信重疊和內核融合進行運行時優化,基礎設施訪問層則直接調用GPU、網絡與系統能力。
多項技術疊加后,Blackwell平臺單GPU的Token吞吐量最高可提升20倍。這些技術包括分離式服務、基于NVLink的大規模專家并行、NVFP4精度以及多Token預測。
英偉達將單Token成本列為AI總擁有成本的核心指標,Blackwell平臺已將其降至行業最低水平。

多家推理服務商已從中獲益。Baseten利用TensorRT-LLM開源庫在Blackwell上服務DeepSeek V4 Pro,每秒Token輸出量提升高達50%。
Cognition借助Dynamo推理框架管理GPU,無需從零構建即可擴展強化學習工作負載。Together AI用TensorRT-LLM幫助Cursor加速從模型優化到生產終端的路徑。

開源生態進一步放大了全棧優勢。PyTorch等主流框架原生基于CUDA構建,使新研究成果能立即在NVIDIA GPU上運行。
DeepSeek V4發布后,vLLM和SGLang等框架隨即為Blackwell提供部署方案,一個月內性能提升高達5倍。

作者:紅茶來源:快科技
原文標題 : 英偉達殺瘋了!DeepSeek V4推理成本狂砍80%
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













