網易首頁 > 網易號 > 正文申請入駐

88天登錄193次：這款醫學AI如何讓醫生告別"幻覺"焦慮

2026-05-15 02:37:30　來源: 灰度測試中

北京舉報

分享至

凌晨1點的急診室，62歲急性心梗患者血壓飆至185/105 mmHg，血氧僅91%。護士推著除顫儀催促確認替格瑞洛劑量——患者腎功能受損，標準劑量可能致命，減量又恐支架堵塞。醫生只有3分鐘，在浩瀚指南中尋找依據。

這不是電影場景。2024年全國醫療衛生機構總診療人次達101.5億，508.2萬執業（助理）醫師支撐起這場百億級的診療馬拉松。紀錄片《中國醫生》總導演那句"沒有哪個國家的醫生承受這樣的超級壓力"，道出了結構性困境：醫生決策供給，才是醫療真正的痛點。

更棘手的是知識爆炸。PubMed收錄超4000萬條生物醫學文獻，年增百萬級條目。每一次開處方、下醫囑，都需在高壓工作中追趕最新證據。互聯網醫療能提升就診效率，卻觸不到"決策供給"這一核心——這正是醫學AI的破局空間。

但過去一年，DeepSeek們一進醫療科研就翻車。醫生們發現，通用大模型在嚴肅醫學場景中能力迅速塌陷：它會虛構文獻，即使明確要求提供DOI號，鏈接也經常錯誤。英國皇家外科醫學院期刊研究顯示，Grok 3引用幻覺率高達33.6%，DeepSeek DeepThink為25%——這些"幻覺引用"甚至帶有虛構的Mayo Clinic鏈接。

近半數頂尖模型回答醫學問題時，默認不披露信息來源。這與醫生核心工作邏輯"循證"（基于證據決策）背道而馳：我如何知道推理是有理可據、權威準確的？

業界普遍將檢索增強生成（RAG）視為解藥，把病歷、指南切片灌入向量數據庫，讓模型"帶著資料回答"。但medRxiv最新研究給出反直覺結論：加入RAG后，醫學臨床文本生成的無依據聲明率從5.0%飆升至43.6%，幻覺率增加8.7倍。

臨床文本高度非結構化，充滿上下文依賴與時間敏感信息。RAG容易檢索出"語義相似但實際屬于其他患者或錯誤時間點"的片段——找到"看起來相關"的資料，卻非"真正適用"的證據，模型據此捏造虛假醫學敘事。

5月13日，阿里健康推出"氫離子"，一款面向臨床和科研醫生的醫學AI。產品設計上，定語首先是"證據、循證"，AI被放在最后。官方定位明確：解決"中國500萬醫生的一切醫學問題"，"低幻覺、高循證"是核心能力標簽——所有回答提供權威出處，支持一鍵溯源。

"在嚴重幻覺率上，我們比國內競品領先2-3倍。"阿里健康CTO祥志給出定性結論。與傳統循證工具UpToDate相比，"氫離子"使用門檻更低：醫生可通過自然語言、多輪對話、語音、圖片等多模態方式提問，像與同事討論病例一樣直接拋出問題。

內測數據顯示，一位三甲急診科主任醫師在88天內登錄高達193次，反饋關鍵詞集中于"可信""可靠"，尤其對"循證問答"評價極高。

回到凌晨1點的急診室。醫生"心電捕手"打開"氫離子"，輸入"急性ST段抬高型心梗合并急性心衰，PCI術后替格瑞洛劑量調整（eGFR65）"。AI明確推薦負荷劑量180mg、維持劑量90mg bid，加粗標注依據來源——中華醫學會2025年最新治療指南，點擊即可查看電子化原文。

關鍵突破在于精準定位：不是高亮整段文本，而是定位到真正決定結論的"關鍵三行"。醫生看到的不只是"這篇文章可能相關"，而是"依據具體在哪里"。同時引入時效性（"2025年"）與權威性（"中華醫學會指南"）維度，強調對全球權威指南和文獻進行日更級追蹤。

這回應了一個基本現實：醫學證據每天都在變化。新指南、新藥物、新療法層出不窮，腫瘤、感染、心血管等領域的頂刊新結果，可能直接改變第二天的治療策略。證據滯后即意味著判斷風險——而"氫離子"試圖將動態證據鏈與臨床決策實時綁定。

從193次登錄到3分鐘生死決策，醫學AI的終極考驗不在參數規模，而在能否讓500萬醫生確信：每一次回答，都錨定在可信證據之上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.