凌晨1點的急診室,62歲急性心梗患者血壓飆至185/105 mmHg,血氧僅91%。護士推著除顫儀催促確認替格瑞洛劑量——患者腎功能受損,標準劑量可能致命,減量又恐支架堵塞。醫生只有3分鐘,在浩瀚指南中尋找依據。
這不是電影場景。2024年全國醫療衛生機構總診療人次達101.5億,508.2萬執業(助理)醫師支撐起這場百億級的診療馬拉松。紀錄片《中國醫生》總導演那句"沒有哪個國家的醫生承受這樣的超級壓力",道出了結構性困境:醫生決策供給,才是醫療真正的痛點。
![]()
更棘手的是知識爆炸。PubMed收錄超4000萬條生物醫學文獻,年增百萬級條目。每一次開處方、下醫囑,都需在高壓工作中追趕最新證據。互聯網醫療能提升就診效率,卻觸不到"決策供給"這一核心——這正是醫學AI的破局空間。
但過去一年,DeepSeek們一進醫療科研就翻車。醫生們發現,通用大模型在嚴肅醫學場景中能力迅速塌陷:它會虛構文獻,即使明確要求提供DOI號,鏈接也經常錯誤。英國皇家外科醫學院期刊研究顯示,Grok 3引用幻覺率高達33.6%,DeepSeek DeepThink為25%——這些"幻覺引用"甚至帶有虛構的Mayo Clinic鏈接。
近半數頂尖模型回答醫學問題時,默認不披露信息來源。這與醫生核心工作邏輯"循證"(基于證據決策)背道而馳:我如何知道推理是有理可據、權威準確的?
業界普遍將檢索增強生成(RAG)視為解藥,把病歷、指南切片灌入向量數據庫,讓模型"帶著資料回答"。但medRxiv最新研究給出反直覺結論:加入RAG后,醫學臨床文本生成的無依據聲明率從5.0%飆升至43.6%,幻覺率增加8.7倍。
臨床文本高度非結構化,充滿上下文依賴與時間敏感信息。RAG容易檢索出"語義相似但實際屬于其他患者或錯誤時間點"的片段——找到"看起來相關"的資料,卻非"真正適用"的證據,模型據此捏造虛假醫學敘事。
5月13日,阿里健康推出"氫離子",一款面向臨床和科研醫生的醫學AI。產品設計上,定語首先是"證據、循證",AI被放在最后。官方定位明確:解決"中國500萬醫生的一切醫學問題","低幻覺、高循證"是核心能力標簽——所有回答提供權威出處,支持一鍵溯源。
"在嚴重幻覺率上,我們比國內競品領先2-3倍。"阿里健康CTO祥志給出定性結論。與傳統循證工具UpToDate相比,"氫離子"使用門檻更低:醫生可通過自然語言、多輪對話、語音、圖片等多模態方式提問,像與同事討論病例一樣直接拋出問題。
內測數據顯示,一位三甲急診科主任醫師在88天內登錄高達193次,反饋關鍵詞集中于"可信""可靠",尤其對"循證問答"評價極高。
回到凌晨1點的急診室。醫生"心電捕手"打開"氫離子",輸入"急性ST段抬高型心梗合并急性心衰,PCI術后替格瑞洛劑量調整(eGFR65)"。AI明確推薦負荷劑量180mg、維持劑量90mg bid,加粗標注依據來源——中華醫學會2025年最新治療指南,點擊即可查看電子化原文。
關鍵突破在于精準定位:不是高亮整段文本,而是定位到真正決定結論的"關鍵三行"。醫生看到的不只是"這篇文章可能相關",而是"依據具體在哪里"。同時引入時效性("2025年")與權威性("中華醫學會指南")維度,強調對全球權威指南和文獻進行日更級追蹤。
這回應了一個基本現實:醫學證據每天都在變化。新指南、新藥物、新療法層出不窮,腫瘤、感染、心血管等領域的頂刊新結果,可能直接改變第二天的治療策略。證據滯后即意味著判斷風險——而"氫離子"試圖將動態證據鏈與臨床決策實時綁定。
從193次登錄到3分鐘生死決策,醫學AI的終極考驗不在參數規模,而在能否讓500萬醫生確信:每一次回答,都錨定在可信證據之上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.