美團(tuán)“多智能體模型”初露鋒芒,醫(yī)藥領(lǐng)域成為“大模型稅”重點(diǎn)征收區(qū)

01
重大發(fā)布(新模型/產(chǎn)品/開(kāi)源)
①美團(tuán)發(fā)布EvoCUA:開(kāi)源計(jì)算機(jī)操作模型位列OSWorld第4名
美團(tuán)近日于GitHub和Hugging Face上開(kāi)源了全新的多模態(tài)大模型EvoCUA,并選擇OSWorld作為評(píng)測(cè)標(biāo)準(zhǔn)。OSWorld是一個(gè)用于評(píng)估多模態(tài)智能體在真實(shí)計(jì)算機(jī)操作系統(tǒng)中執(zhí)行任務(wù)能力的基準(zhǔn)測(cè)試,模型需要能夠像人類一樣通過(guò)觀看屏幕、控制鍵鼠等操作完成復(fù)雜任務(wù)。
經(jīng)測(cè)試,EvoCUA的任務(wù)完成率為56.7%,位列開(kāi)源模型第1,總榜第4,超越了香港大學(xué)和月之暗面研發(fā)的OpenCUA-72B(+11.7%)和阿里研發(fā)的Qwen3-VL-Thinking(+15.1%)。

該模型僅需50步即可實(shí)現(xiàn)較高性能表現(xiàn),且所用參數(shù)量更少、任務(wù)執(zhí)行效率更高。在適用場(chǎng)景上,該模型支持端到端自動(dòng)化操作,僅憑屏幕截圖+自然語(yǔ)言指令即可流暢操控常用軟件,如Chrome、Excel、PPT和VSCode等主流軟件,進(jìn)而完成多輪復(fù)雜任務(wù)。
根據(jù)項(xiàng)目介紹,該模型的創(chuàng)新點(diǎn)在于獨(dú)特的數(shù)據(jù)合成與訓(xùn)練范式,在保持通用多模態(tài)理解力的基礎(chǔ)之上強(qiáng)化了計(jì)算機(jī)使用能力。
短評(píng):
這個(gè)模型的本質(zhì)就是Manus,說(shuō)是模型,請(qǐng)傾向于多智能體應(yīng)用。
EvoCUA在參數(shù)更少、步數(shù)減半的情況下實(shí)現(xiàn)性能的顯著提升證明其訓(xùn)練方法是有效的,這是開(kāi)源模型在自動(dòng)化操作方向上前進(jìn)的重要一步。
不過(guò),56.7%的任務(wù)完成率仍然局限于“實(shí)驗(yàn)室中的好用”,而非“用戶手里的好用”。
值得肯定的是,EvoCUA與占據(jù)榜單前三的Anthropic的claude-sonnet-4.5和字節(jié)跳動(dòng)的Seed-1.8得分差距只在毫厘之間,盡管無(wú)法掌握?qǐng)鼍岸x,但也可以搶占一部分開(kāi)源生態(tài)中“計(jì)算機(jī)使用”場(chǎng)景的話語(yǔ)權(quán)。
美團(tuán)未必指望EvoCUA短期內(nèi)的商用,但該模型的開(kāi)源能夠提升技術(shù)影響力,同時(shí)為集團(tuán)內(nèi)部的辦公、運(yùn)維等流程實(shí)現(xiàn)優(yōu)化,一舉兩得。
②Anthropic推出Claude for Healthcare,布局AI醫(yī)療行業(yè)
隨著OpenAI和阿里接連推出AI醫(yī)療領(lǐng)域相關(guān)產(chǎn)品,Anthropic也緊隨其后開(kāi)始進(jìn)行布局。1月12日,Anthropic正式推出Claude for Healthcare,并同步擴(kuò)展Claude for Life Sciences的能力,AI醫(yī)療場(chǎng)景再添一巨頭。
Claude for Healthcare的客戶群體分為三類:醫(yī)療機(jī)構(gòu)、保險(xiǎn)公司和患者,并提供HIPAA合規(guī)的AI套件,核心包括以下三點(diǎn):
一是直連三大官方數(shù)據(jù)庫(kù):CMS覆蓋政策庫(kù)、ICD-10編碼系統(tǒng)、國(guó)家醫(yī)療服務(wù)提供者標(biāo)識(shí)符注冊(cè)庫(kù),支持醫(yī)保預(yù)授權(quán)審核、理賠申訴、編碼校驗(yàn)等高價(jià)值任務(wù);
二是新增Agent技能:FHIR(醫(yī)療信息交換國(guó)際標(biāo)準(zhǔn))開(kāi)發(fā)支持(提升醫(yī)療系統(tǒng)互操作性)、預(yù)授權(quán)審查模板(可定制化對(duì)接機(jī)構(gòu)流程);
三是個(gè)人健康數(shù)據(jù)整合:用戶可授權(quán)接入Apple Health、Android Health Connect、實(shí)驗(yàn)室檢測(cè)報(bào)告等數(shù)據(jù)源,Claude可生成簡(jiǎn)明解讀、識(shí)別健康趨勢(shì),并協(xié)助準(zhǔn)備問(wèn)診問(wèn)題。所有數(shù)據(jù)均不會(huì)用于模型訓(xùn)練,用戶全程具有控制權(quán)。

Claude 新增了對(duì)Medidata(臨床試驗(yàn)平臺(tái))、ClinicalTrials.gov、ChEMBL(藥物數(shù)據(jù)庫(kù))、Open Targets、Owkin(病理圖像分析)等關(guān)鍵平臺(tái)的連接,并推出臨床試驗(yàn)方案自動(dòng)生成、監(jiān)管文件輔助撰寫(xiě)、試驗(yàn)進(jìn)度監(jiān)控等新技能。
根據(jù)測(cè)試結(jié)果,Anthropic最新的產(chǎn)品 Claude Opus 4.5 在 MedAgentBench(斯坦福醫(yī)療智能體評(píng)測(cè))和 MedCalc(醫(yī)學(xué)計(jì)算)等仿真任務(wù)中顯著領(lǐng)先,同時(shí)在“事實(shí)誠(chéng)實(shí)性”評(píng)估中有效減少了幻覺(jué),更貼近臨床可靠性要求。
短評(píng):
OpenAI、Anthropic和阿里短期內(nèi)同時(shí)將目光放到AI醫(yī)療上,說(shuō)明AI應(yīng)用的落地場(chǎng)景正在逐步明確。先是AI編程,后是AI醫(yī)療,從Chatbot到Agent的應(yīng)用范式已經(jīng)成功轉(zhuǎn)移。
相比先前推出AI醫(yī)療產(chǎn)品的OpenAI,Anthropic涉足的領(lǐng)域要更加深入,切入了多個(gè)高價(jià)值的工作流,但落地仍然高度依賴機(jī)構(gòu)IT系統(tǒng)集成,同時(shí)也面臨著責(zé)任邊界模糊等問(wèn)題,風(fēng)險(xiǎn)不容小覷。
02
技術(shù)進(jìn)展(論文/SOTA/算法)
①Google新發(fā)現(xiàn):重復(fù)輸入提示詞即可提升主流LLMs準(zhǔn)確率
近日Google Research發(fā)表了一篇名為《Prompt Repetition Improves Non-Reasoning LLMs》的論文,篇幅雖然不長(zhǎng),卻揭示了一個(gè)出乎意料的現(xiàn)象:
只要將用戶輸入的提示詞(prompt)重復(fù)一次,就能在不啟用推理、不增加生成長(zhǎng)度、不延長(zhǎng)響應(yīng)時(shí)間的前提下顯著提升大模型在多項(xiàng)任務(wù)中的表現(xiàn)。

研究團(tuán)隊(duì)將這一方法應(yīng)用在Gemini 2.0 Flash、Gemini 2.0 Flash Lite、GPT-4o-mini、GPT-4o、Claude 3 Haiku、Claude 3.7 Sonnet、Deepseek-V3共7款主流模型上進(jìn)行了測(cè)試,覆蓋了7項(xiàng)基準(zhǔn)測(cè)試。結(jié)果顯示:
1.在70組實(shí)驗(yàn)中,重復(fù)輸入提示詞在47組測(cè)試中為模型帶來(lái)了正向提升,且并未導(dǎo)致性能下降;
2.在NameIndex等特定結(jié)構(gòu)的任務(wù)中,準(zhǔn)確率從21%躍升至97%;
3.對(duì)于“選項(xiàng)前置”或“問(wèn)題后置”的不利結(jié)構(gòu),效果會(huì)更加明顯。
研究團(tuán)隊(duì)認(rèn)為,這一現(xiàn)象源自于模型在預(yù)填充(prefill)階段對(duì)上下文注意力的重新分配。重復(fù)輸入提示詞可以讓模型在token處理的早期階段獲得更強(qiáng)的語(yǔ)義錨定,從而減少因位置偏移導(dǎo)致的理解偏差。而當(dāng)模型被要求“逐步推理”時(shí),內(nèi)部已經(jīng)隱式完成類似的信息強(qiáng)化,因此重復(fù)提示的效果將趨于中性。
簡(jiǎn)單來(lái)說(shuō),大模型在生成答案前的準(zhǔn)備階段只能從左到右看一遍輸入,不能回頭。如果問(wèn)題和關(guān)鍵信息離得太遠(yuǎn),就可能導(dǎo)致“記不住”或者“理解錯(cuò)誤”等問(wèn)題。重復(fù)輸入提示詞可以讓大模型多看一遍題目,所有詞之間也能通過(guò)注意力機(jī)制“看到”彼此,從而減少詞序問(wèn)題導(dǎo)致的誤判。不過(guò),當(dāng)模型被要求“一步一步思考”時(shí),用戶就可以在“思考部分”中看到大模型復(fù)述和整理問(wèn)題的過(guò)程,手動(dòng)重復(fù)提示也就用處不大了。
短評(píng):
當(dāng)前的大模型對(duì)于提示詞的輸入順序依然高度敏感。這一簡(jiǎn)單但高效的技巧巧妙地繞過(guò)了模型架構(gòu)的天然缺陷,將輸入轉(zhuǎn)變?yōu)槿B接的語(yǔ)義網(wǎng)絡(luò),人工修復(fù)了信息流的不對(duì)稱性,從向量的空間視角來(lái)看十分合理。或許,不是沒(méi)人想過(guò)“多說(shuō)一遍”,只是沒(méi)人把它當(dāng)作一個(gè)通用、可量化的技術(shù)手段來(lái)驗(yàn)證。
不過(guò),需要注意的是,該論文測(cè)試的模型如今看來(lái)已經(jīng)略顯過(guò)時(shí),該技術(shù)能否在當(dāng)下最先進(jìn)的模型上發(fā)揮作用有待考察。
03
算力與基礎(chǔ)設(shè)施(芯片/云/數(shù)據(jù)中心)
①Google緊急下架部分醫(yī)療類AI Overviews
近日,英國(guó)《衛(wèi)報(bào)》在一項(xiàng)調(diào)查中發(fā)現(xiàn),Google的AI Overviews(基于Gemini大模型生成結(jié)構(gòu)化答案的功能)在肝功能檢測(cè)等健康查詢功能中提供了缺少個(gè)體化參考范圍的誤導(dǎo)性數(shù)據(jù)。目前,谷歌已經(jīng)悄然移除相關(guān)關(guān)鍵詞的AI摘要功能。
根據(jù)《衛(wèi)報(bào)》的測(cè)試結(jié)果,當(dāng)用戶搜索肝功能檢查的正常范圍時(shí),AI Overviews給出的數(shù)值是一個(gè)固定區(qū)間,但并未提示該范圍可能會(huì)因?yàn)槟挲g、性別、種族甚至檢測(cè)設(shè)備的差異而發(fā)生顯著變化。這種“一刀切”的回答可能導(dǎo)致患者誤判自身情況。
目前,有關(guān)“肝功能查詢”及類似的表述已經(jīng)不再觸發(fā)AI摘要,僅顯示相關(guān)搜索結(jié)果。谷歌隨后對(duì)此做出了回應(yīng):其內(nèi)部臨床團(tuán)隊(duì)在復(fù)核后認(rèn)為該功能提供的“多數(shù)信息并非錯(cuò)誤,且有高質(zhì)量網(wǎng)站支持”,表示會(huì)持續(xù)進(jìn)行改進(jìn),但拒絕對(duì)下線該功能的行為進(jìn)行評(píng)論。英國(guó)肝臟信托基金會(huì)表示:臨時(shí)關(guān)閉個(gè)別查詢只是“治標(biāo)不治本”,AI Overviews在醫(yī)療領(lǐng)域面對(duì)的問(wèn)題仍然未能解決。
短評(píng):
在缺乏嚴(yán)格的醫(yī)學(xué)知識(shí)圖譜、臨床審核流程和強(qiáng)大推理能力的前提下,將通用大模型直接用于健康信息的分發(fā)仍然存在重大的安全隱患。
Google的AI Overviews在2024年就給出過(guò)“用膠水往披薩上粘芝士”、“吃石頭補(bǔ)充營(yíng)養(yǎng)”等幻覺(jué)度極高的離譜答案,如今隨著Google的影響力與日俱增,以“權(quán)威摘要”形式輸出健康建議所帶來(lái)的風(fēng)險(xiǎn)也在激增。反觀OpenAI選擇聚焦日常健康陪伴而非診療場(chǎng)景,現(xiàn)階段AI醫(yī)療首先要做到的不是專業(yè),而是避險(xiǎn)。
原文標(biāo)題 : 美團(tuán)“多智能體模型”初露鋒芒,醫(yī)藥領(lǐng)域成為“大模型稅”重點(diǎn)征收區(qū)
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來(lái)了!宇樹(shù)科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉(cāng)中國(guó)機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來(lái)iPhone 時(shí)刻嗎?
- 8 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 9 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 10 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





