一家估值超5000億美元的幣圈富豪公司,秀出了性能碾壓谷歌的AI醫(yī)療大模型。
近日,以發(fā)行全球最大穩(wěn)定幣USDT聞名的Tether推出了AI醫(yī)療大模型QVAC MedPsy,并在多項(xiàng)醫(yī)學(xué)推理與診斷基準(zhǔn)測(cè)試中展現(xiàn)出令人意外的強(qiáng)大性能:
這款僅1.7B參數(shù)的輕量級(jí)模型,擊敗了規(guī)模大16倍的谷歌MedGemma-27B;且4B版本使用的token比主流模型少3.2倍,在降低計(jì)算成本的同時(shí)保持了較高的輸出質(zhì)量。
這一結(jié)果,直接挑戰(zhàn)了AI醫(yī)療領(lǐng)域長(zhǎng)期存在的“模型規(guī)模越大,效果越好”的共識(shí),在官方技術(shù)通稿中,Tether AI團(tuán)隊(duì)強(qiáng)調(diào),該模型更接近一種“輕量級(jí)高密度推理系統(tǒng)”。
![]()
不少開(kāi)發(fā)者社區(qū)也對(duì)其“低參數(shù)、高性能”的組合方式給予了積極評(píng)價(jià),認(rèn)為其可能代表醫(yī)療大模型的一條新路徑。
值得關(guān)注的是,Tether旗下AI團(tuán)隊(duì)在2024年才啟動(dòng)招募,成立時(shí)間極短。從其官網(wǎng)披露的技術(shù)說(shuō)明與開(kāi)源鏈路來(lái)看,QVAC MedPsy的訓(xùn)練并非完全從零開(kāi)始構(gòu)建,而是在多個(gè)基礎(chǔ)模型之上進(jìn)行組合式訓(xùn)練與優(yōu)化。
![]()
進(jìn)一步追溯其論文與技術(shù)報(bào)告可以發(fā)現(xiàn),在封閉式醫(yī)學(xué)基準(zhǔn)測(cè)試與HealthBench評(píng)估框架中,Tether團(tuán)隊(duì)實(shí)際采用了來(lái)自中國(guó)公司的開(kāi)源醫(yī)療大模型——百川智能的Baichuan-M3-235B作為自己的“教師模型”。
![]()
中國(guó)大模型的持久統(tǒng)治力
在Tether團(tuán)隊(duì)的內(nèi)部模型篩選中,Baichuan-M3同臺(tái)競(jìng)技的對(duì)手包括OpenAI的GPT-OSS-120B以及量化巨頭旗下Ubiquant AI推出的Fleming-R1-32B。
而B(niǎo)aichuan-M3-235B在幾乎所有核心評(píng)測(cè)指標(biāo)上都展現(xiàn)出明顯優(yōu)勢(shì),尤其是在高復(fù)雜度醫(yī)學(xué)問(wèn)題上的表現(xiàn),拉開(kāi)了顯著差距。
其中,最值得關(guān)注的是醫(yī)學(xué)推理基準(zhǔn)MedXpertQA。
這是目前業(yè)內(nèi)公認(rèn)難度最高的醫(yī)學(xué)多選評(píng)測(cè)之一,相比傳統(tǒng)基于USMLE題庫(kù)的MedQA,它更強(qiáng)調(diào)復(fù)雜臨床推理、多學(xué)科診斷與長(zhǎng)鏈路決策能力,某種程度上,更接近頂級(jí)醫(yī)院MDT(多學(xué)科會(huì)診)場(chǎng)景下的真實(shí)醫(yī)學(xué)判斷。
在這一基準(zhǔn)上,Baichuan-M3相比競(jìng)品取得了高達(dá)10.98分的領(lǐng)先優(yōu)勢(shì)。對(duì)于醫(yī)療AI而言,這已經(jīng)不是簡(jiǎn)單的“精度提升”,而是意味著模型在復(fù)雜病情理解、診療邏輯組織以及醫(yī)學(xué)知識(shí)調(diào)用能力上,出現(xiàn)了代際差異。
不僅如此,在經(jīng)典大模型評(píng)測(cè)MMLU-Pro Health上,Baichuan-M3同樣展現(xiàn)出顯著領(lǐng)先,分別取得了+5.05 / +2.73的優(yōu)勢(shì)表現(xiàn)。
事實(shí)上,早在2026年1月首次發(fā)布時(shí),Baichuan-M3就已經(jīng)在全球權(quán)威醫(yī)療AI評(píng)測(cè)基準(zhǔn) HealthBench上擊敗GPT-5.2,并刷新當(dāng)時(shí)最高紀(jì)錄。更難得的是,在AI行業(yè)已經(jīng)進(jìn)入“月更時(shí)代”的背景下,這一優(yōu)勢(shì)并未隨著時(shí)間迅速衰減。
具體來(lái)看,Baichuan-M3-235B相較GPT-OSS-120B領(lǐng)先約6至12分,相較Fleming-R1-32B領(lǐng)先約10至12分,并且在HealthBench全部七個(gè)維度上都維持了持續(xù)性的優(yōu)勢(shì)。
![]()
Tether團(tuán)隊(duì)對(duì)Baichuan-M3模型的評(píng)價(jià)
這種持續(xù)領(lǐng)先的背后,是百川在醫(yī)療強(qiáng)化學(xué)習(xí)體系上的長(zhǎng)期投入。
從2025年M2開(kāi)始,百川便將原本依賴(lài)患者模擬器與靜態(tài)Rubric的半動(dòng)態(tài)反饋機(jī)制,升級(jí)為能夠隨模型能力共同演化的全動(dòng)態(tài)Verifier System。隨著監(jiān)督信號(hào)不斷細(xì)化、難化,模型得以持續(xù)突破能力上限,最終讓M3在復(fù)雜醫(yī)學(xué)推理與醫(yī)療溝通能力上實(shí)現(xiàn)躍遷。
與此同時(shí),M3還首次具備了原生“端到端”嚴(yán)肅問(wèn)診能力。它能夠像真實(shí)醫(yī)生一樣主動(dòng)追問(wèn)、逐層逼近病因,把關(guān)鍵病史和風(fēng)險(xiǎn)信號(hào)一步步問(wèn)出來(lái),再基于完整信息進(jìn)行深度醫(yī)學(xué)推理。
這也是為什么,Tether團(tuán)隊(duì)并不是Baichuan-M系列模型唯一的支持者。Baichuan-M系列模型在開(kāi)源社區(qū)累計(jì)獲得超過(guò)150萬(wàn)次下載,同時(shí)受益于百川推出的「海納百川」計(jì)劃,M3 Plus API已向服務(wù)醫(yī)務(wù)工作者的機(jī)構(gòu)免費(fèi)開(kāi)放,目前已有大量團(tuán)隊(duì)基于該模型構(gòu)建醫(yī)療應(yīng)用。
甚至在今年3月OpenAI發(fā)布GPT-5.4后,仍有不少開(kāi)發(fā)者在社區(qū)中呼吁,希望GPT系列與Baichuan-M3在HealthBench上展開(kāi)正面對(duì)決,并質(zhì)疑GPT在醫(yī)療健康領(lǐng)域的真實(shí)能力,是否已經(jīng)被中國(guó)醫(yī)療大模型反超。
![]()
正如百川智能創(chuàng)始人、 CEO王小川在媒體采訪(fǎng)中表達(dá)的:“(AI醫(yī)療)護(hù)城河核心肯定在于模型能力的絕對(duì)領(lǐng)先,在醫(yī)療這一嚴(yán)肅領(lǐng)域,只有領(lǐng)先一代的技術(shù)水平才能建立行業(yè)信任 。”
![]()
重構(gòu)專(zhuān)業(yè)醫(yī)療的“數(shù)字基建”
當(dāng)大模型浪潮席卷各行各業(yè)時(shí),真正能切入醫(yī)療AI的公司并不多,百川智能算是其中最早的一批。
早在2023年,百川智能成立后迅速躋身國(guó)內(nèi)大模型賽道的前列。到了2025年,百川智能明確了“為人類(lèi)造醫(yī)生、為生命建模型”的核心路徑,其發(fā)布的模型幾乎全部圍繞醫(yī)療場(chǎng)景和推理能力增強(qiáng)展開(kāi)。
同年10月,百川推出首個(gè)循證增強(qiáng)醫(yī)療大模型Baichuan-M2 Plus,在幻覺(jué)率控制上明顯優(yōu)于通用大模型,降低至Deepseek的三分之一,可信度接近資深臨床醫(yī)生水準(zhǔn)。
年底,百川智能發(fā)布醫(yī)療Agent平臺(tái)PAPA(PlayBook Animated Proactive Agent),能夠從提醒用藥到動(dòng)態(tài)調(diào)整健康計(jì)劃,實(shí)現(xiàn)月度乃至年度的患者康復(fù)進(jìn)程管理,真正將AI嵌入臨床閉環(huán)。
隨后登場(chǎng)的醫(yī)療大模型Baichuan-M3更一鳴驚人。在全球權(quán)威醫(yī)療評(píng)測(cè) HealthBench 中以 65.1分 登頂,首次全面超越 GPT-5.2,并刷新了醫(yī)療幻覺(jué)率最低記錄。
2026年以來(lái),醫(yī)療健康已成為AI最受重視的落地領(lǐng)域之一。OpenAI推出“個(gè)人超級(jí)健康助手”ChatGPT Health,谷歌發(fā)布最新開(kāi)源醫(yī)療模型MedGemma 1.5,Anthropic也掏出Claude for Healthcare來(lái)?yè)屨坚t(yī)療市場(chǎng)。
不同于通用大模型“先做能力、再找場(chǎng)景”的路徑,百川智能選擇深耕醫(yī)療垂類(lèi),圍繞臨床真實(shí)需求打磨產(chǎn)品,持續(xù)突破低幻覺(jué)率、端到端問(wèn)診和復(fù)雜臨床推理等核心能力。
百川智能構(gòu)建的“深度問(wèn)診”能力,讓模型在有限對(duì)話(huà)輪次中,將臨床所需問(wèn)題問(wèn)全、問(wèn)準(zhǔn),其表現(xiàn)甚至顯著高于人類(lèi)醫(yī)生基線(xiàn)。
首創(chuàng)的“證據(jù)錨定”技術(shù),不僅提供引文來(lái)源,還將每一句醫(yī)學(xué)結(jié)論精確映射到原始論文的對(duì)應(yīng)段落,使AI的醫(yī)學(xué)判斷可核驗(yàn)、可追責(zé)、可教學(xué),極大增強(qiáng)了臨床可信度。
這也讓百川智能在醫(yī)療AI行業(yè)進(jìn)入深水區(qū)后,逐漸形成差異化優(yōu)勢(shì)——不僅有強(qiáng)大模型能力,更熟悉醫(yī)院工作流,更貼近真實(shí)臨床場(chǎng)景。
在政策支持、醫(yī)院數(shù)智化升級(jí)與大模型能力突破的多重推動(dòng)下,醫(yī)療AI正在進(jìn)入真正的產(chǎn)業(yè)化周期。而提前完成垂類(lèi)深耕、建立技術(shù)與場(chǎng)景閉環(huán)的百川智能,顯然已經(jīng)站在了更有利的位置。
此外,據(jù)智藥局獲悉,百川智能即將發(fā)布AI醫(yī)療應(yīng)用產(chǎn)品與新一代大模型,其應(yīng)用表現(xiàn)與技術(shù)成果值得高度期待。
—The End—
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.