4月大模型最后一舞!阿里Qwen3真能成為開(kāi)源大模型之王嗎?
國(guó)內(nèi)第一個(gè)混合推理模型,也是第一個(gè)開(kāi)源的混合推理模型。
今天(4 月 29 日)凌晨,阿里巴巴推出了 4 月壓軸的一款大語(yǔ)言模型——Qwen3 系列。
而在這個(gè)月,Meta、字節(jié)跳動(dòng)、OpenAI、Google、百度都在稍早前推出了新的大模型,OpenAI 甚至一次性拿出三款大模型,百度也在這周舉行的 Create 2025 百度 AI 開(kāi)發(fā)者大會(huì)上發(fā)布了兩款大模型。
但在這一眾新模型中,阿里還能搞出什么新意?事實(shí)上還真有,除了繼續(xù)保持開(kāi)源路線,Qwen3 系列作為阿里定位中的旗艦大模型,在模型性能上也有了不小的進(jìn)步,再次縮小與頂尖大模型之間的能力差。
此外,Qwen3 系列還是一款混合推理模型,甚至官方博文的標(biāo)題就是《Qwen3:思深,行速》。簡(jiǎn)單來(lái)說(shuō),Qwen3 支持思考模式和非思考模式,而不像 DeepSeek 深度思考下是 R1,關(guān)閉深度思考其實(shí)是 V3。

圖/雷科技
關(guān)于混合推理模型,雷科技在今年 2 月就報(bào)道并介紹了首款混合推理模型,以及混合推理的優(yōu)勢(shì)所在,并指出:「混合推理模式」可能會(huì)成為大模型發(fā)展的下一個(gè)標(biāo)準(zhǔn)配置。
而回到阿里剛剛發(fā)布的 Qwen3 系列,作為國(guó)內(nèi)首個(gè)混合推理模型,也是首個(gè)混合推理開(kāi)源模型,再加上模型性能方面的進(jìn)步,也難怪 Qwen3 推出僅僅四個(gè)小時(shí)后,就在全球最大開(kāi)發(fā)者社區(qū) Github 拿到了 1.7 萬(wàn)個(gè) Star。
問(wèn)題在于,在模型跑分越來(lái)越受爭(zhēng)議的今天,Qwen3 系列實(shí)際上真能兌現(xiàn)跑分體現(xiàn)出的能力,以及混合推理模型的優(yōu)勢(shì)嗎?
跑分追上頂級(jí)閉源模型,阿里 Qwen3 成色幾何?
毫無(wú)疑問(wèn),Qwen3 系列最大的亮點(diǎn)之一就是通過(guò)引入混合推理設(shè)計(jì),實(shí)現(xiàn)了同一模型的「思考模式」與「非思考模式」,阿里這次是把這兩種「腦回路」都塞進(jìn)了同一個(gè)模型里,還開(kāi)放給用戶和開(kāi)發(fā)者自由選擇。
非思考模式下,Qwen3 系列會(huì)充分發(fā)揮快速響應(yīng)的優(yōu)勢(shì),更像傳統(tǒng)語(yǔ)言模型的輸出方式——快速直接地生成結(jié)果。而在思考模式下,模型則會(huì)進(jìn)行深入地思考和推理,比如先分解問(wèn)題、做一步步的邏輯推導(dǎo),再得出結(jié)論。

圖/雷科技
這種架構(gòu)并不是第一次被提出,但 Qwen3 系列是國(guó)內(nèi)首個(gè)真正落地混合推理并完全開(kāi)源的模型。
在全球范圍內(nèi),除了首先采用這種設(shè)計(jì) Claude-3.7-Sonnet,也只有 Google 在 4 月中旬才推出的 Gemini 2.5 Flash 上做出了類似嘗試,包括 OpenAI 盡管早早表明了「混合推理」的目標(biāo),但仍在開(kāi)發(fā)中。
不僅如此,Qwen3 系列還是一個(gè)多尺寸的系列模型,覆蓋包括 0.6B、1.7B、4B、8B、14B、32B,一共 6 個(gè)尺寸的稠密模型,以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 共 2 個(gè)適用于復(fù)雜任務(wù)的 MoE 混合專家模型,并且全部支持 119 種語(yǔ)言和方言。
Qwen3 不只是架構(gòu)上「動(dòng)了腦子」,性能表現(xiàn)也確實(shí)有料。阿里宣稱,小模型如 Qwen3-4B 的性能已可媲美上一代的 Qwen2.5-72B-Instruct,同時(shí) MoE 模型更是在基準(zhǔn)測(cè)試上表現(xiàn)出了媲美頂尖閉源模型的能力。

圖/阿里
尤其是參數(shù)規(guī)模達(dá)到 2350 萬(wàn)億的 Qwen3-235B-A22B,在數(shù)學(xué)推理基準(zhǔn) AIME25 上,得分達(dá)到 81.5,刷新開(kāi)源模型紀(jì)錄;在代碼能力測(cè)試 LiveCodeBench 中得分超過(guò) 70,超過(guò) Grok-3;在人類偏好評(píng)估 ArenaHard 中,得分 95.6,超過(guò) OpenAI o1 和 DeepSeek-R1。
這些進(jìn)步,在一定程度上也解釋了為何 Qwen3 系列一經(jīng)發(fā)布就受到社區(qū)熱烈歡迎。
另一方面,Qwen3 團(tuán)隊(duì)還強(qiáng)調(diào)了 Agent 能力的增強(qiáng)以及對(duì) MCP 的支持,算是順理成章,但目前還沒(méi)有看出亮眼的地方。主要可能還是,AI 開(kāi)發(fā)者打造 Agent 的好選擇又多了一個(gè)。
不過(guò) Qwen3 系列當(dāng)然還談不上十全十美。在實(shí)際推理表現(xiàn)上,Qwen3-235B-A22B 距離今天的頂級(jí)模型還有明顯的差異,實(shí)測(cè)即便在滿血狀態(tài)下,遇到困難問(wèn)題還是容易陷入「冗長(zhǎng)而無(wú)用」的推理中,最后的結(jié)果也不理想。
比如雷科技在 OpenAI-o3 上手測(cè)試中提出的問(wèn)題,o3 可以條理清晰地回答「父親崩潰的原因」,但 Qwen3-235B-A22B 則遇到了和 DeepSeek-R1 類似的問(wèn)題——思考太久且不斷重復(fù)方向,甚至沒(méi)有抓住「女兒是色盲」這一關(guān)鍵的可能性。

圖/雷科技
包括在 Hacker News 上,也有網(wǎng)友指出 Qwen3-235B-A22B 面對(duì)復(fù)雜問(wèn)題時(shí)的表現(xiàn)。

圖/ Hacker News
不過(guò)降低一點(diǎn)難度,在經(jīng)典過(guò)河問(wèn)題上稍作改造來(lái)提問(wèn) Qwen3-235B-A22B,詢問(wèn)怎么把卷心菜、山羊、狼和獅子完整拉過(guò)河。盡管采用了窮舉的方式,但還是找到了安全的路徑,關(guān)鍵是對(duì)規(guī)則的理解非常到位。
當(dāng)然,時(shí)間有限我們暫時(shí)只是簡(jiǎn)單地上手,但也大體能看出 Qwen3 最強(qiáng)版本的「成色」,如果從基準(zhǔn)測(cè)試的分?jǐn)?shù)來(lái)看,最好還是放低一下期待。但放到今天的大模型戰(zhàn)場(chǎng)來(lái)看,Qwen3 系列依然稱得上最強(qiáng)開(kāi)源模型,并且混合推理的設(shè)計(jì)也給用戶和開(kāi)發(fā)者帶來(lái)了更靈活的選擇。
放大鏡下的 Qwen3,阿里的一次關(guān)鍵補(bǔ)強(qiáng)
放在更大的時(shí)間尺度上來(lái)看,Qwen3 系列的發(fā)布,并不僅僅是一次模型升級(jí)這么簡(jiǎn)單,而是可以看作阿里在 AI 戰(zhàn)略上的一次重要補(bǔ)強(qiáng)。
過(guò)去兩年里,阿里在大模型領(lǐng)域的布局其實(shí)并不算慢,通義千問(wèn)體系逐步完善,開(kāi)源也走得比較早。但無(wú)論是在模型的全球聲量,還是在開(kāi)源社區(qū)的話語(yǔ)權(quán)上,始終未能真正站到最前排。
在 4 月爆料 Qwen3 即將發(fā)布(雖然發(fā)布時(shí)間推遲了)的報(bào)道中,虎嗅還指出,基礎(chǔ)模型團(tuán)隊(duì)在阿里內(nèi)部最重要的考核維度是「模型影響力」,高層希望可以在業(yè)內(nèi)成功塑造「最強(qiáng)模型」的心智。

想復(fù)制 DeepSeek 的影響力,很難。圖/ X
不過(guò) OpenAI、DeepSeek、Google 以及 Anthropic 等公司接連發(fā)布的強(qiáng)力模型,阿里此前更多是追隨者角色,很難形成技術(shù)引領(lǐng)的姿態(tài)。Qwen3 系列的推出,無(wú)疑是一場(chǎng)重要的補(bǔ)強(qiáng),也在某種程度上緩解了這種局面。
尤其是在開(kāi)源模型領(lǐng)域,Qwen3 覆蓋了從小參數(shù)到大參數(shù)、稠密模型到混合專家模型的一整套體系,支持 119 種語(yǔ)言和方言,同時(shí)在 Hugging Face、GitHub 等開(kāi)發(fā)者社區(qū)迅速獲得了不錯(cuò)的反響。這不僅擴(kuò)展了阿里在開(kāi)源生態(tài)中的存在感,也為更多模型應(yīng)用、工具鏈建設(shè)打下了基礎(chǔ)。
而從商業(yè)化的角度來(lái)看,Qwen3 系列也直接回應(yīng)了當(dāng)前模型商業(yè)應(yīng)用的兩大痛點(diǎn):推理成本高,以及靈活適配性不足。通過(guò)引入 MoE 架構(gòu)大幅降低推理成本,同時(shí)又在推理機(jī)制上支持思考與非思考的靈活切換,Qwen3 在推理效率、推理成本之間嘗試找到相對(duì)平衡的位置。
對(duì)于阿里云現(xiàn)有的 AI 服務(wù)體系,尤其是政企、制造、金融等行業(yè)客戶來(lái)說(shuō),更低的部署門(mén)檻和更高的適配靈活性,無(wú)疑可以增強(qiáng)阿里在大模型商業(yè)化競(jìng)爭(zhēng)中的籌碼。更重要的是,大模型能力注定是未來(lái) AI 云競(jìng)爭(zhēng)的「勝負(fù)手」。

圖/阿里
但如果回到更理性的位置來(lái)看,Qwen3 系列仍然存在著一些明顯的不足。正如前文所述,它目前仍然是一個(gè)純文本語(yǔ)言模型,多模態(tài)乃至 QvQ-Max 上的視覺(jué)推理能力都尚未同步整合進(jìn)來(lái)。簡(jiǎn)言之,真比最強(qiáng)的模型能力,Qwen3 還有不少需要改進(jìn)和補(bǔ)足的空間。
另一方面,盡管 Qwen3 系列在推理機(jī)制上實(shí)現(xiàn)了創(chuàng)新,但在真正復(fù)雜推理問(wèn)題中的穩(wěn)定性和魯棒性,相比 OpenAI、Anthropic 等頂級(jí)閉源模型,依然有不小差距。
尤其在需要長(zhǎng)鏈條邏輯推理、多輪嚴(yán)密推導(dǎo)的任務(wù)上,Qwen3 的「思考」模式表現(xiàn)出一定的不穩(wěn)定性,偶爾出現(xiàn)的推理偏移、冗長(zhǎng)不聚焦的問(wèn)題,也說(shuō)明了目前的混合推理設(shè)計(jì)還有打磨的余地。
總而言之,在這個(gè)大模型競(jìng)爭(zhēng)白熱化的 4 月,Qwen3 的推出確實(shí)為阿里帶來(lái)了一次必要且及時(shí)的升級(jí)。它不僅在性能上與頂尖模型縮小了差距,也在推理機(jī)制上探索了新的可能性,同時(shí)還有潛力幫助阿里在 AI 的商業(yè)化方向補(bǔ)上短板。
可見(jiàn)的是,大模型的競(jìng)爭(zhēng)還會(huì)繼續(xù)加劇,性能和成本依舊會(huì)是兩條重要「主線」,阿里能否繼續(xù)保持節(jié)奏,甚至在可以預(yù)見(jiàn)的「智能體爆發(fā)」中占據(jù)主動(dòng),仍然需要更多技術(shù)演進(jìn)和產(chǎn)品落地來(lái)檢驗(yàn)。
不過(guò)至少在今天,Qwen3 確實(shí)讓阿里不容忽視。
來(lái)源:雷科技
原文標(biāo)題 : 4月大模型最后一舞!阿里Qwen3真能成為開(kāi)源大模型之王嗎?
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來(lái)了!宇樹(shù)科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉(cāng)中國(guó)機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來(lái)iPhone 時(shí)刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 10 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





