網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-4.1實(shí)戰(zhàn)皮膚診斷準(zhǔn)確率暴跌18個(gè)百分點(diǎn)

2026-05-08 06:44:33　來(lái)源: 灰度測(cè)試中

北京舉報(bào)

分享至

多模態(tài)大模型在實(shí)驗(yàn)室里表現(xiàn)亮眼，進(jìn)了醫(yī)院卻頻頻翻車。一項(xiàng)覆蓋5811例真實(shí)皮膚科病例的多中心研究揭示：GPT-4.1的診斷準(zhǔn)確率從公開(kāi)基準(zhǔn)測(cè)試的42.25%驟降至實(shí)際臨床場(chǎng)景的24.65%，跌幅接近18個(gè)百分點(diǎn)。這并非個(gè)例——所有受測(cè)模型的基準(zhǔn)表現(xiàn)都系統(tǒng)性高估了真實(shí)能力，差距普遍在10到20個(gè)百分點(diǎn)之間。

研究團(tuán)隊(duì)由Roy Jiang、Hyunjae Kim、Zhenyue Qin等人組成，他們?cè)赼rXiv預(yù)印本中詳細(xì)記錄了這項(xiàng)迄今規(guī)模最大的真實(shí)世界皮膚科評(píng)估。實(shí)驗(yàn)設(shè)計(jì)頗具針對(duì)性：除了GPT-4.1這款商業(yè)模型，還納入了四款開(kāi)源權(quán)重模型——InternVL-Chat v1.5、LLaVA-Med v1.5、SkinGPT4和MedGemma-4B-Instruct。測(cè)試數(shù)據(jù)分為兩類：三類公開(kāi)基準(zhǔn)數(shù)據(jù)集，以及一個(gè)回顧性多中心醫(yī)院隊(duì)列，后者包含5811例病例和46405張臨床圖像。

數(shù)字對(duì)比令人警醒。在公開(kāi)基準(zhǔn)上，開(kāi)源模型最優(yōu)成績(jī)?yōu)?6.55%的top-3診斷準(zhǔn)確率，GPT-4.1則以42.25%大幅領(lǐng)先。但當(dāng)場(chǎng)景切換到僅憑圖像的真實(shí)會(huì)診時(shí)，開(kāi)源模型集體崩盤，準(zhǔn)確率跌至1.50%至13.35%區(qū)間；GPT-4.1雖仍居首位，卻也滑落至24.65%。這一落差直接指向一個(gè)被長(zhǎng)期忽視的問(wèn)題：基準(zhǔn)測(cè)試使用的圖像經(jīng)過(guò)精心篩選和標(biāo)注，而真實(shí)醫(yī)院的臨床照片光線雜亂、角度隨意、病灶邊界模糊，模型從未見(jiàn)過(guò)這種"野生數(shù)據(jù)"。

加入臨床文本信息后，局面有所改觀。開(kāi)源模型準(zhǔn)確率回升至28.75%，GPT-4.1躍升至38.93%。但研究者發(fā)現(xiàn)了一個(gè)更隱蔽的風(fēng)險(xiǎn)：模型輸出對(duì)會(huì)診記錄的完整性和準(zhǔn)確性極度敏感。一旦提供的臨床上下文存在缺失或錯(cuò)誤，準(zhǔn)確率會(huì)急劇下跌，部分情況下甚至低于純圖像基線。這意味著在病歷書(shū)寫潦草、信息錄入混亂的真實(shí)醫(yī)療環(huán)境中，AI的表現(xiàn)可能比實(shí)驗(yàn)室數(shù)據(jù)更加不堪。

研究者也找到了一絲曙光。在基于嚴(yán)重程度的預(yù)檢分診任務(wù)上，所有模型均表現(xiàn)出超過(guò)60%的敏感度，暗示其在篩查環(huán)節(jié)可能具備實(shí)用價(jià)值。但論文結(jié)論毫不含糊：現(xiàn)有性能"不足以支撐臨床部署"。核心判斷基于兩點(diǎn)——診斷準(zhǔn)確率遠(yuǎn)未達(dá)標(biāo)，且系統(tǒng)對(duì)噪聲數(shù)據(jù)的脆弱性尚未解決。

這項(xiàng)研究的獨(dú)特價(jià)值在于方法論。以往評(píng)估多依賴策展精良的基準(zhǔn)圖像，而本次采用多中心醫(yī)院隊(duì)列，首次量化了"基準(zhǔn)到病床"的真實(shí)鴻溝。公開(kāi)基準(zhǔn)系統(tǒng)性高估模型能力10到20個(gè)百分點(diǎn)，這一發(fā)現(xiàn)對(duì)醫(yī)療AI的審批流程和臨床轉(zhuǎn)化節(jié)奏具有直接參考價(jià)值。

下一步觀察指標(biāo)已明確。后續(xù)研究將測(cè)試GPT-5.3-Codex-Spark及o系列推理模型在同一隊(duì)列上的表現(xiàn)。若加入臨床上下文后準(zhǔn)確率仍無(wú)法突破50%，則意味著基準(zhǔn)-臨床差距可能跨越模型代際持續(xù)存在，皮膚AI的大規(guī)模商用時(shí)間表或?qū)⑼七t至2028年以后。對(duì)于押注醫(yī)療多模態(tài)大模型的資本和團(tuán)隊(duì)而言，這是一個(gè)需要重新校準(zhǔn)預(yù)期的信號(hào)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.