網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

性能碾壓谷歌！5000億美元巨頭開(kāi)源最強(qiáng)端側(cè)醫(yī)療AI，背后藏著一家中國(guó)企業(yè)！

2026-05-12 19:23:03　來(lái)源: 智藥局

四川舉報(bào)

分享至

一家估值超5000億美元的幣圈富豪公司，秀出了性能碾壓谷歌的AI醫(yī)療大模型。

近日，以發(fā)行全球最大穩(wěn)定幣USDT聞名的Tether推出了AI醫(yī)療大模型QVAC MedPsy，并在多項(xiàng)醫(yī)學(xué)推理與診斷基準(zhǔn)測(cè)試中展現(xiàn)出令人意外的強(qiáng)大性能：

這款僅1.7B參數(shù)的輕量級(jí)模型，擊敗了規(guī)模大16倍的谷歌MedGemma-27B；且4B版本使用的token比主流模型少3.2倍，在降低計(jì)算成本的同時(shí)保持了較高的輸出質(zhì)量。

這一結(jié)果，直接挑戰(zhàn)了AI醫(yī)療領(lǐng)域長(zhǎng)期存在的“模型規(guī)模越大，效果越好”的共識(shí)，在官方技術(shù)通稿中，Tether AI團(tuán)隊(duì)強(qiáng)調(diào)，該模型更接近一種“輕量級(jí)高密度推理系統(tǒng)”。

不少開(kāi)發(fā)者社區(qū)也對(duì)其“低參數(shù)、高性能”的組合方式給予了積極評(píng)價(jià)，認(rèn)為其可能代表醫(yī)療大模型的一條新路徑。

值得關(guān)注的是，Tether旗下AI團(tuán)隊(duì)在2024年才啟動(dòng)招募，成立時(shí)間極短。從其官網(wǎng)披露的技術(shù)說(shuō)明與開(kāi)源鏈路來(lái)看，QVAC MedPsy的訓(xùn)練并非完全從零開(kāi)始構(gòu)建，而是在多個(gè)基礎(chǔ)模型之上進(jìn)行組合式訓(xùn)練與優(yōu)化。

進(jìn)一步追溯其論文與技術(shù)報(bào)告可以發(fā)現(xiàn)，在封閉式醫(yī)學(xué)基準(zhǔn)測(cè)試與HealthBench評(píng)估框架中，Tether團(tuán)隊(duì)實(shí)際采用了來(lái)自中國(guó)公司的開(kāi)源醫(yī)療大模型——百川智能的Baichuan-M3-235B作為自己的“教師模型”。

中國(guó)大模型的持久統(tǒng)治力

在Tether團(tuán)隊(duì)的內(nèi)部模型篩選中，Baichuan-M3同臺(tái)競(jìng)技的對(duì)手包括OpenAI的GPT-OSS-120B以及量化巨頭旗下Ubiquant AI推出的Fleming-R1-32B。

而B(niǎo)aichuan-M3-235B在幾乎所有核心評(píng)測(cè)指標(biāo)上都展現(xiàn)出明顯優(yōu)勢(shì)，尤其是在高復(fù)雜度醫(yī)學(xué)問(wèn)題上的表現(xiàn)，拉開(kāi)了顯著差距。

其中，最值得關(guān)注的是醫(yī)學(xué)推理基準(zhǔn)MedXpertQA。

這是目前業(yè)內(nèi)公認(rèn)難度最高的醫(yī)學(xué)多選評(píng)測(cè)之一，相比傳統(tǒng)基于USMLE題庫(kù)的MedQA，它更強(qiáng)調(diào)復(fù)雜臨床推理、多學(xué)科診斷與長(zhǎng)鏈路決策能力，某種程度上，更接近頂級(jí)醫(yī)院MDT（多學(xué)科會(huì)診）場(chǎng)景下的真實(shí)醫(yī)學(xué)判斷。

在這一基準(zhǔn)上，Baichuan-M3相比競(jìng)品取得了高達(dá)10.98分的領(lǐng)先優(yōu)勢(shì)。對(duì)于醫(yī)療AI而言，這已經(jīng)不是簡(jiǎn)單的“精度提升”，而是意味著模型在復(fù)雜病情理解、診療邏輯組織以及醫(yī)學(xué)知識(shí)調(diào)用能力上，出現(xiàn)了代際差異。

不僅如此，在經(jīng)典大模型評(píng)測(cè)MMLU-Pro Health上，Baichuan-M3同樣展現(xiàn)出顯著領(lǐng)先，分別取得了+5.05 / +2.73的優(yōu)勢(shì)表現(xiàn)。

事實(shí)上，早在2026年1月首次發(fā)布時(shí)，Baichuan-M3就已經(jīng)在全球權(quán)威醫(yī)療AI評(píng)測(cè)基準(zhǔn) HealthBench上擊敗GPT-5.2，并刷新當(dāng)時(shí)最高紀(jì)錄。更難得的是，在AI行業(yè)已經(jīng)進(jìn)入“月更時(shí)代”的背景下，這一優(yōu)勢(shì)并未隨著時(shí)間迅速衰減。

具體來(lái)看，Baichuan-M3-235B相較GPT-OSS-120B領(lǐng)先約6至12分，相較Fleming-R1-32B領(lǐng)先約10至12分，并且在HealthBench全部七個(gè)維度上都維持了持續(xù)性的優(yōu)勢(shì)。

Tether團(tuán)隊(duì)對(duì)Baichuan-M3模型的評(píng)價(jià)

這種持續(xù)領(lǐng)先的背后，是百川在醫(yī)療強(qiáng)化學(xué)習(xí)體系上的長(zhǎng)期投入。

從2025年M2開(kāi)始，百川便將原本依賴(lài)患者模擬器與靜態(tài)Rubric的半動(dòng)態(tài)反饋機(jī)制，升級(jí)為能夠隨模型能力共同演化的全動(dòng)態(tài)Verifier System。隨著監(jiān)督信號(hào)不斷細(xì)化、難化，模型得以持續(xù)突破能力上限，最終讓M3在復(fù)雜醫(yī)學(xué)推理與醫(yī)療溝通能力上實(shí)現(xiàn)躍遷。

與此同時(shí)，M3還首次具備了原生“端到端”嚴(yán)肅問(wèn)診能力。它能夠像真實(shí)醫(yī)生一樣主動(dòng)追問(wèn)、逐層逼近病因，把關(guān)鍵病史和風(fēng)險(xiǎn)信號(hào)一步步問(wèn)出來(lái)，再基于完整信息進(jìn)行深度醫(yī)學(xué)推理。

這也是為什么，Tether團(tuán)隊(duì)并不是Baichuan-M系列模型唯一的支持者。Baichuan-M系列模型在開(kāi)源社區(qū)累計(jì)獲得超過(guò)150萬(wàn)次下載，同時(shí)受益于百川推出的「海納百川」計(jì)劃，M3 Plus API已向服務(wù)醫(yī)務(wù)工作者的機(jī)構(gòu)免費(fèi)開(kāi)放，目前已有大量團(tuán)隊(duì)基于該模型構(gòu)建醫(yī)療應(yīng)用。

甚至在今年3月OpenAI發(fā)布GPT-5.4后，仍有不少開(kāi)發(fā)者在社區(qū)中呼吁，希望GPT系列與Baichuan-M3在HealthBench上展開(kāi)正面對(duì)決，并質(zhì)疑GPT在醫(yī)療健康領(lǐng)域的真實(shí)能力，是否已經(jīng)被中國(guó)醫(yī)療大模型反超。

正如百川智能創(chuàng)始人、 CEO王小川在媒體采訪(fǎng)中表達(dá)的：“（AI醫(yī)療）護(hù)城河核心肯定在于模型能力的絕對(duì)領(lǐng)先，在醫(yī)療這一嚴(yán)肅領(lǐng)域，只有領(lǐng)先一代的技術(shù)水平才能建立行業(yè)信任。”

重構(gòu)專(zhuān)業(yè)醫(yī)療的“數(shù)字基建”

當(dāng)大模型浪潮席卷各行各業(yè)時(shí)，真正能切入醫(yī)療AI的公司并不多，百川智能算是其中最早的一批。

早在2023年，百川智能成立后迅速躋身國(guó)內(nèi)大模型賽道的前列。到了2025年，百川智能明確了“為人類(lèi)造醫(yī)生、為生命建模型”的核心路徑，其發(fā)布的模型幾乎全部圍繞醫(yī)療場(chǎng)景和推理能力增強(qiáng)展開(kāi)。

同年10月，百川推出首個(gè)循證增強(qiáng)醫(yī)療大模型Baichuan-M2 Plus，在幻覺(jué)率控制上明顯優(yōu)于通用大模型，降低至Deepseek的三分之一，可信度接近資深臨床醫(yī)生水準(zhǔn)。

年底，百川智能發(fā)布醫(yī)療Agent平臺(tái)PAPA（PlayBook Animated Proactive Agent），能夠從提醒用藥到動(dòng)態(tài)調(diào)整健康計(jì)劃，實(shí)現(xiàn)月度乃至年度的患者康復(fù)進(jìn)程管理，真正將AI嵌入臨床閉環(huán)。

隨后登場(chǎng)的醫(yī)療大模型Baichuan-M3更一鳴驚人。在全球權(quán)威醫(yī)療評(píng)測(cè) HealthBench 中以 65.1分登頂，首次全面超越 GPT-5.2，并刷新了醫(yī)療幻覺(jué)率最低記錄。

2026年以來(lái)，醫(yī)療健康已成為AI最受重視的落地領(lǐng)域之一。OpenAI推出“個(gè)人超級(jí)健康助手”ChatGPT Health，谷歌發(fā)布最新開(kāi)源醫(yī)療模型MedGemma 1.5，Anthropic也掏出Claude for Healthcare來(lái)?yè)屨坚t(yī)療市場(chǎng)。

不同于通用大模型“先做能力、再找場(chǎng)景”的路徑，百川智能選擇深耕醫(yī)療垂類(lèi)，圍繞臨床真實(shí)需求打磨產(chǎn)品，持續(xù)突破低幻覺(jué)率、端到端問(wèn)診和復(fù)雜臨床推理等核心能力。

百川智能構(gòu)建的“深度問(wèn)診”能力，讓模型在有限對(duì)話(huà)輪次中，將臨床所需問(wèn)題問(wèn)全、問(wèn)準(zhǔn)，其表現(xiàn)甚至顯著高于人類(lèi)醫(yī)生基線(xiàn)。

首創(chuàng)的“證據(jù)錨定”技術(shù)，不僅提供引文來(lái)源，還將每一句醫(yī)學(xué)結(jié)論精確映射到原始論文的對(duì)應(yīng)段落，使AI的醫(yī)學(xué)判斷可核驗(yàn)、可追責(zé)、可教學(xué)，極大增強(qiáng)了臨床可信度。

這也讓百川智能在醫(yī)療AI行業(yè)進(jìn)入深水區(qū)后，逐漸形成差異化優(yōu)勢(shì)——不僅有強(qiáng)大模型能力，更熟悉醫(yī)院工作流，更貼近真實(shí)臨床場(chǎng)景。

在政策支持、醫(yī)院數(shù)智化升級(jí)與大模型能力突破的多重推動(dòng)下，醫(yī)療AI正在進(jìn)入真正的產(chǎn)業(yè)化周期。而提前完成垂類(lèi)深耕、建立技術(shù)與場(chǎng)景閉環(huán)的百川智能，顯然已經(jīng)站在了更有利的位置。

此外，據(jù)智藥局獲悉，百川智能即將發(fā)布AI醫(yī)療應(yīng)用產(chǎn)品與新一代大模型，其應(yīng)用表現(xiàn)與技術(shù)成果值得高度期待。

—The End—

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.