多模態(tài)大模型在實(shí)驗(yàn)室里表現(xiàn)亮眼,進(jìn)了醫(yī)院卻頻頻翻車。一項(xiàng)覆蓋5811例真實(shí)皮膚科病例的多中心研究揭示:GPT-4.1的診斷準(zhǔn)確率從公開(kāi)基準(zhǔn)測(cè)試的42.25%驟降至實(shí)際臨床場(chǎng)景的24.65%,跌幅接近18個(gè)百分點(diǎn)。這并非個(gè)例——所有受測(cè)模型的基準(zhǔn)表現(xiàn)都系統(tǒng)性高估了真實(shí)能力,差距普遍在10到20個(gè)百分點(diǎn)之間。
研究團(tuán)隊(duì)由Roy Jiang、Hyunjae Kim、Zhenyue Qin等人組成,他們?cè)赼rXiv預(yù)印本中詳細(xì)記錄了這項(xiàng)迄今規(guī)模最大的真實(shí)世界皮膚科評(píng)估。實(shí)驗(yàn)設(shè)計(jì)頗具針對(duì)性:除了GPT-4.1這款商業(yè)模型,還納入了四款開(kāi)源權(quán)重模型——InternVL-Chat v1.5、LLaVA-Med v1.5、SkinGPT4和MedGemma-4B-Instruct。測(cè)試數(shù)據(jù)分為兩類:三類公開(kāi)基準(zhǔn)數(shù)據(jù)集,以及一個(gè)回顧性多中心醫(yī)院隊(duì)列,后者包含5811例病例和46405張臨床圖像。
![]()
數(shù)字對(duì)比令人警醒。在公開(kāi)基準(zhǔn)上,開(kāi)源模型最優(yōu)成績(jī)?yōu)?6.55%的top-3診斷準(zhǔn)確率,GPT-4.1則以42.25%大幅領(lǐng)先。但當(dāng)場(chǎng)景切換到僅憑圖像的真實(shí)會(huì)診時(shí),開(kāi)源模型集體崩盤,準(zhǔn)確率跌至1.50%至13.35%區(qū)間;GPT-4.1雖仍居首位,卻也滑落至24.65%。這一落差直接指向一個(gè)被長(zhǎng)期忽視的問(wèn)題:基準(zhǔn)測(cè)試使用的圖像經(jīng)過(guò)精心篩選和標(biāo)注,而真實(shí)醫(yī)院的臨床照片光線雜亂、角度隨意、病灶邊界模糊,模型從未見(jiàn)過(guò)這種"野生數(shù)據(jù)"。
加入臨床文本信息后,局面有所改觀。開(kāi)源模型準(zhǔn)確率回升至28.75%,GPT-4.1躍升至38.93%。但研究者發(fā)現(xiàn)了一個(gè)更隱蔽的風(fēng)險(xiǎn):模型輸出對(duì)會(huì)診記錄的完整性和準(zhǔn)確性極度敏感。一旦提供的臨床上下文存在缺失或錯(cuò)誤,準(zhǔn)確率會(huì)急劇下跌,部分情況下甚至低于純圖像基線。這意味著在病歷書(shū)寫潦草、信息錄入混亂的真實(shí)醫(yī)療環(huán)境中,AI的表現(xiàn)可能比實(shí)驗(yàn)室數(shù)據(jù)更加不堪。
研究者也找到了一絲曙光。在基于嚴(yán)重程度的預(yù)檢分診任務(wù)上,所有模型均表現(xiàn)出超過(guò)60%的敏感度,暗示其在篩查環(huán)節(jié)可能具備實(shí)用價(jià)值。但論文結(jié)論毫不含糊:現(xiàn)有性能"不足以支撐臨床部署"。核心判斷基于兩點(diǎn)——診斷準(zhǔn)確率遠(yuǎn)未達(dá)標(biāo),且系統(tǒng)對(duì)噪聲數(shù)據(jù)的脆弱性尚未解決。
這項(xiàng)研究的獨(dú)特價(jià)值在于方法論。以往評(píng)估多依賴策展精良的基準(zhǔn)圖像,而本次采用多中心醫(yī)院隊(duì)列,首次量化了"基準(zhǔn)到病床"的真實(shí)鴻溝。公開(kāi)基準(zhǔn)系統(tǒng)性高估模型能力10到20個(gè)百分點(diǎn),這一發(fā)現(xiàn)對(duì)醫(yī)療AI的審批流程和臨床轉(zhuǎn)化節(jié)奏具有直接參考價(jià)值。
下一步觀察指標(biāo)已明確。后續(xù)研究將測(cè)試GPT-5.3-Codex-Spark及o系列推理模型在同一隊(duì)列上的表現(xiàn)。若加入臨床上下文后準(zhǔn)確率仍無(wú)法突破50%,則意味著基準(zhǔn)-臨床差距可能跨越模型代際持續(xù)存在,皮膚AI的大規(guī)模商用時(shí)間表或?qū)⑼七t至2028年以后。對(duì)于押注醫(yī)療多模態(tài)大模型的資本和團(tuán)隊(duì)而言,這是一個(gè)需要重新校準(zhǔn)預(yù)期的信號(hào)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.