3 月 30 日,斯坦福大學李飛飛團隊發布了一篇論文《海市蜃樓:視覺理解的幻象》。
研究發現,GPT-5、Gemini 、Claude 這些大模型根本“看不見”。
研究團隊在涵蓋醫療與通用場景的 6 個基準測試中,測試了 GPT-5.1、Gemini-3-Pro、Claude Opus 4.5 以及 Gemini-2.5-Pro。
然后悄無聲息地移除了所有圖片,照片、掃描報告或 X 光片等。
沒有警告,也沒有修改提示詞。
模型竟然完全沒有察覺。
它們依然在詳細地描述圖片內容、診斷病情、書寫完整的推理邏輯,且準確率依然保持在 70% 到 80%。
但這些全靠識別根本不存在的圖像而生成。
![]()
論文將其稱為 “海市蜃樓效應”(Mirage Effect)。
研究團隊認為,這比“幻覺”(Hallucination)更可怕。
幻覺是針對真實輸入編造出錯誤細節。
而海市蜃樓,則構建出一整個虛假的現實,并自信地以此進行推理。
在測試中,模型構造出了虛構的 X 光片、描述了假的結節、診斷了疾病——卻全都是靠文本模式生成的。
但這還不是最可怕的。
他們訓練了一個“超級猜測器”——一個僅有 30 億參數的純文本模型。
它零視覺能力。
在最大規模的胸部 X 光基準數據集(69.6 萬個問題)上對其進行了微調,且將圖片全部移除。
結果它打敗了 GPT-5、打敗了 Gemini、打敗了 Claude。
甚至打敗了真正的放射科醫生。
在隱藏的測試集上排名第一——而它從未看過任何一張 X 光片。
它生成的推理邏輯,與真實的視覺分析毫無區別。
還有更讓你細思極恐的地方——
當模型“虛假觀看”醫療影像時,它們的海市蜃樓式診斷會嚴重偏向于最致命的病癥。
ST段抬高型心肌梗死(STEMI)、黑色素瘤、癌。
——來自根本不存在的圖像,做出危及生命的診斷。
![]()
要知道,每天有 2.3 億人在 ChatGPT 上詢問健康問題。
研究團隊還發現了一個反常現象,即告訴模型“這里沒有圖片,隨便猜”,性能會下降。
而當悄悄移走圖片卻讓它誤以為圖片存在時,性能反而會保持高位。
也就是說,模型進入了 “海市蜃樓模式”后,它不知道自己是“瞎”的。而且在它不知道自己看不見的時候,表現反而更好。
當斯坦福應用他們的清理方法(B-Clean),去處理現有基準測試時,74%-77% 的測試樣本被剔除了。
![]()
四分之三的“視覺”基準測試,根本不是在測試視覺。
也就是說,我們看到的所有排行榜、所有“多模態突破”、所有基準測試分數,都是建立在海市蜃樓之上的。
多模態概念還講得下去么?
論文鏈接 https://arxiv.org/pdf/2603.21687v2
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.