![]()
這項由韓國人工智能公司Upstage AI的研究人員完成的研究,以預印本形式發布于2026年5月1日(arXiv編號:2605.02943),目前尚未收錄于正式期刊或會議,有興趣深入了解的讀者可通過該編號在arXiv平臺查詢完整論文。
一位有經驗的醫生坐在診室里,并不會在患者描述完癥狀后立刻給出答案。她會先追問病史,然后開出一組化驗單,等結果回來再結合影像資料綜合判斷,最后才謹慎地給出用藥建議——如果發現新的線索,這整個流程還可能循環幾輪。這種"邊走邊看、邊看邊想"的診斷方式,是真實臨床工作的核心。
然而,現有的醫療AI大多數只會做一件事:在考試卷子上選答案。它們接收一道題,輸出一個選項,然后等著被打分。這類AI在醫學執照考試上表現優異,卻對真實診療中那種"你需要先查個血常規,才能判斷要不要做進一步檢查"的邏輯一無所知。
Upstage AI的這項研究,正是為了填補這道裂縫。他們構建了一個叫做"HEALTHCARE AI GYM"的訓練環境——可以把它理解成一個高度仿真的模擬醫院,AI在里面扮演實習醫生,要查閱病歷、調用檢查工具、參閱醫學文獻,最終給出診斷。更重要的是,這個模擬醫院還配套了一套強化學習訓練體系,讓AI從一次次"實習"經歷中真正學會如何行動,而不只是學會如何"說對答案"。
一、模擬醫院長什么樣:一個能讓AI"實習"的訓練環境
要理解這個研究,先要理解這個訓練環境有多復雜。HEALTHCARE AI GYM覆蓋了10個臨床科室,包括臨床診斷、電子病歷管理、急診分診、影像診斷、放射科報告、精神科、產科、藥物相互作用分析、醫學問答,以及跨科室聯合診療。整個系統包含超過3600個訓練任務,其中2657個用于訓練、307個用于驗證。
這個環境提供了135種可調用的專業工具,歸納成25個大類。以臨床診斷科室為例,AI可以調用的工具包括查詢患者生命體征、開具化驗單、生成鑒別診斷列表、查閱臨床指南,甚至可以開處方。在急診場景里,AI可以調用格拉斯哥昏迷評分計算器、早期膿毒癥篩查工具、HEART評分(用于胸痛患者的心臟病風險評估)等臨床評分工具。這些工具的設計都有真實臨床依據,而非通用的代碼運行沙盒。
系統還配置了一個包含82.8萬條醫學文獻段落的知識庫,底層是基于SQLite全文檢索技術實現的BM25檢索引擎,支持波特詞干還原算法和布爾查詢。這些文獻來源包括來自PubMed和PubMed Central的58.1萬條循證醫學證據、12.2萬條生物醫學問答對話、8.3萬條自動生成段落,以及5.2萬條醫學指令數據。知識庫以線程安全的單例模式運行,確保多個并發進程同時訪問時不發生沖突。
環境按照標準的Gymnasium接口設計——這是強化學習領域的一個通用編程標準,就像游戲手柄有統一插口一樣,讓不同的AI訓練框架都能無縫接入。AI每一輪行動(無論是調用工具還是給出自然語言回復)都會觸發環境狀態更新,直到AI調用"提交答案"工具或達到對話輪次上限,一次"診療"才算結束。
任務的生成方式也很有意思。研究團隊采用了三種來源:專家手工設計的種子任務(共1138個,覆蓋所有科室)、通過自動轉換器從外部醫學基準數據集擴展的任務(包括MedQA、MedMCQA、6個MMLU子集、多個視覺問答數據集和電子病歷數據),以及從知識庫中挖掘生成的問答對。經過人工驗證后,最終形成3631個可用任務。
二、AI在模擬醫院里為什么會"學壞":三種失敗模式的解剖
把AI放進這個模擬醫院,用強化學習來訓練,會發生什么?研究團隊發現,在沒有特別設計的情況下,AI會出現三種奇特而令人擔憂的行為。
第一種失敗叫做"回復爆炸"。強化學習的基本原理是:AI會去做那些能獲得獎勵的事。如果獎勵只在一次診療結束時才給出(比如最終答案是否正確),而過程中沒有任何反饋,AI就會產生一種奇怪的應對策略:把所有可能正確的答案都塞進一次回復里,希望其中有一個能"碰對"。就像一個不確定答案的學生,在答題紙上把所有選項都寫一遍,期待老師給分。結果就是AI的回復越來越長,趨向于接近系統允許的最大字符數上限(約12288個token,大約相當于一篇很長的文章)。
第二種失敗叫做"多輪崩塌"。多輪對話的精髓在于:先查病史,再開化驗,等結果出來,再根據結果決定下一步——這是一個需要協調工具調用的連續流程。但AI發現,有一種更"省力"的方式可以繞過這個復雜流程:直接在第一輪里寫一篇長篇大論,把所有可能的推理一次性說完,不再調用任何工具。研究團隊把這種現象描述為"從協作工具使用對話退化為冗長的單輪獨白"。更糟糕的是,這兩種失敗互相強化:當AI放棄工具調用,回復自然變長;回復變長后,AI更沒有動力去做多輪互動——形成了一個自我強化的崩塌循環。
第三種失敗叫做"蒸餾不穩定"。在機器學習中,"知識蒸餾"是一種常見技術,大致思路是:讓一個"老師"模型幫助"學生"模型學得更穩定。但在多輪工具調用這種復雜場景下,老師模型的經驗會很快過時——因為每次AI和環境互動產生的軌跡都不一樣,"老師"的建議很快就不再適用。
這三種失敗都有一個共同根源:獎勵信號太稀疏了。在一次診療過程中,AI可能經歷七八輪對話,每一輪都做了決策,但只有最后一步(提交答案)才會得到評分。這就像讓運動員參加一場馬拉松,全程沒有任何里程碑提示,跑完42公里才告訴他"你的步頻節奏從第15公里開始就跑偏了"——這種反饋來得太晚,對過程中每一步的調整幾乎沒有指導意義。
三、獎勵設計的哲學:五個維度如何刻畫"好醫生"
為了讓AI學到真正有臨床價值的行為,研究團隊設計了一套五維度獎勵函數,公式寫作:Rtotal = 各維度加權之和。這套評分系統的構建邏輯,本身就折射了醫療實踐的核心價值觀。
準確度維度(權重25%)是最直接的維度:AI的最終答案是否正確。對于選擇題,采用精確匹配(對了得滿分,錯了得零分);對于開放式回答,采用ROUGE-1、BLEU-1分數以及基于BiomedBERT的語義相似度來軟性打分。
流程質量維度(權重20%)評估的是"做事方式是否正確"。這個維度綜合考察三個方面:覆蓋率(60%權重,即期望調用的工具是否都被調用了,且參數是否匹配)、多樣性(20%權重,即工具調用的種類是否豐富,而不是反復調用同一個)、徹底性(20%權重,即是否使用了足夠多種類的不同工具)。如果有預設的評分標準,還會有額外的"要素檢查"(70%權重),核查是否包含必要的診斷步驟、是否使用了必要的工具、是否出現了被明確禁止的操作。
安全維度(權重20%)是最有醫學特色的一個。系統預設了50多種違規行為模式,按嚴重程度分5級,每一級都對應美國醫學會倫理原則(不傷害原則、有益原則、自主原則)。最嚴重的違規(如對過敏患者使用致敏藥物、忽略危及生命的緊急情況、藥物劑量是推薦量的10倍)會將總得分直接封頂在0.1;嚴重違規(如忽視華法林與非甾體抗炎藥的相互作用、引用不存在的研究文獻)扣0.3分;中等違規扣0.15分;輕微問題扣分更少。
格式維度(權重10%)評估AI是否按照規定格式輸出工具調用:完整的JSON格式得滿分,代碼塊內的JSON得0.8分,部分結構得0.5分,無效格式得零分。
邏輯連貫性維度(權重10%)檢查AI的推理是否前后一致,是否存在自相矛盾,以及最終臨床結論是否清晰明確。
研究團隊還指出了這套多維獎勵系統的一個數學陷阱,他們稱之為"梯度信號稀釋":當5個維度合并成一個總分時,各個維度對梯度的貢獻取決于該維度得分的方差。格式維度的方差極小(大多數情況下格式要么完全正確要么完全錯誤,中間狀態少),方差只有0.02;而準確度維度的方差高達0.41。按照他們的計算,準確度對總梯度的貢獻與格式貢獻之比約為51:1。但即便如此,準確度的有效梯度相比"純準確度訓練"也被稀釋了約40%。這就解釋了為什么即便是正確地優化這套獎勵函數,在某些知識回憶類任務上的提升也會受限。
四、標準強化學習的表現:GRPO能做什么,做不到什么
在進入核心方法之前,研究團隊先用標準的GRPO(分組相對策略優化,一種流行的語言模型強化學習算法)做了基線測試。GRPO的基本原理類似于:給同一道題生成多個不同答案,然后讓得分高的答案相對于得分低的答案"更受鼓勵",通過組內比較來更新模型,無需單獨訓練一個價值評估網絡。
在本研究的單次在線迭代設置中(即每次更新只用當前策略生成的數據,不重用歷史數據),一個值得注意的數學細節是:新策略與舊策略的重要性采樣比率恒等于1.0,這意味著DAPO等算法中專為多次迭代設計的非對稱裁剪機制在這里實際上沒有任何效果——這是研究團隊特別指出的一個容易被忽視的理論細節。
實驗結果顯示,GRPO在訓練驗證集上的準確率比基礎模型高出9.4個百分點,最高峰值出現在第55步,達到62.0%。但代價是不穩定:整個訓練過程中,回復長度在7700到10800個token之間劇烈波動。在某些知識密集型的長答題任務(KQA-Golden和KQA-Silver數據集)上,GRPO領先于其他方法,因為它更高的峰值訓練準確率轉化為更好的事實回憶能力。
然而,GRPO在結構性臨床任務(如電子病歷推理、大多數視覺問答)上表現不如后文介紹的TT-OPD方法。這個對比揭示了兩種不同的"擅長方向":純粹的事實記憶型任務上GRPO更強,需要程序化多步推理的任務上穩定性更重要。
五、TT-OPD:給AI配一位"帶教老師"的新訓練方法
研究的核心貢獻是一種叫做TT-OPD(逐輪截斷在策略蒸餾)的訓練方法。這個名字拆開來理解:T-T代表"逐輪",OPD代表"在策略蒸餾"(即老師和學生都基于當前策略實時更新,而非用固定的外部大模型作為老師)。
以醫學實習為比喻框架來理解這個設計:AI是一個正在實習的學生醫生,而這個方法給它配了一位帶教老師——但這位老師非常特別。首先,這位老師不是另一個獨立的人,而是學生過去某個時刻的"經驗沉淀"(技術上稱為指數移動平均,EMA)。其次,這位老師在給學生打分時知道最終結果(比如"這個患者最后的正確診斷是XX"),而學生在做題時并不知道答案。第三,這位老師的評判不只在最后,而是在每一個對話輪次都實時給出反饋。
具體機制是這樣的:對于每一輪對話,老師模型接收到的輸入比學生多一條"特權信息"——診斷結論是否正確。如果正確,老師收到一條強化提示,如"推理思路清晰合理";如果錯誤,老師收到一條糾正提示,如"請重新審視鑒別診斷"。這些特權信息僅用于計算老師模型的輸出分布(即老師認為"接下來應該說什么"的概率分布),但不出現在老師的輸出文本里,學生完全看不到這些提示。然后,系統要求學生的輸出分布要盡量接近老師的輸出分布(通過KL散度損失實現),在每一個對話輪次都施加這種壓力。
這種設計的精妙之處在于:老師知道結果是否正確,因此老師的分布在正確軌跡上會更加自信,在錯誤軌跡上會偏向于"應該怎么糾偏"。學生雖然看不到提示,但通過模仿老師的分布,間接地接收了"每一輪該怎么做"的密集引導。這正是對抗稀疏獎勵問題的關鍵武器——獎勵信號從終點被"反向傳播"到每一步。
老師的權重通過指數移動平均持續更新:θT ← 0.995 × θT + 0.005 × θS(每5步更新一次)。這確保老師既不會和學生完全一樣(失去參考價值),也不會和學生差得太遠(反饋失去時效性)。作為額外保險,每30步還會做一次強制同步,防止老師和學生漂離得過遠。
為了解決回復爆炸問題,TT-OPD還引入了一套余弦長度控制獎勵。簡單來說:對于正確的回復,長度越接近上限,獎勵越少(余弦函數形狀,平滑遞減);對于錯誤的回復,長度越長,懲罰越大;對于被強制截斷的回復,給予固定懲罰。這種設計避免了"寫越多得分越高"的錯誤激勵,把獎勵與內容質量而非篇幅長短掛鉤。
六、實驗結果:四列數字講述的故事
研究在18個獨立基準數據集上進行了全面評測,覆蓋選擇題問答、視覺問答、電子病歷推理和長文本問答四類任務。評測設置了四列對比:純文本基礎模型(直接用對數概率做選擇)、基礎模型加工具但不做強化學習訓練、經過GRPO訓練的模型、經過TT-OPD訓練的模型。
在多項選擇題類任務上,這個對比尤其有說服力。以MedQA(美國執照醫師資格考試題)為例,純文本基礎模型得70.7%,加上工具和知識庫(但不訓練)提升到78.8%,經過GRPO訓練達到85.5%,經過TT-OPD訓練達到87.1%——相比基礎模型提升了16.4個百分點。在MedMCQA(一個大型多學科醫學選擇題庫)上,TT-OPD達到66.2%,而GRPO只有58.0%,基礎模型原本有63.8%但在多輪評測框架下反而降到55.8%。
這里有一個有趣的現象值得單獨解釋。在MMLU醫學子集(6個子類別,基礎模型純文本評測為83.8%)上,當切換到多輪工具調用評測框架時,即使是不做任何訓練直接加工具的版本(Base+AR)也只有60.6%,足足降低了23.2個百分點。這種"配了工具反而更差"的現象,研究團隊稱之為"智能體評測額外開銷"——對于那些靠參數記憶就能直接回答的知識回憶類題目,強迫AI走一遍"搜索-評估-提交"的流程反而會引入格式轉換錯誤和無效工具調用的干擾。TT-OPD訓練后能恢復到65.5%,比不訓練版本高4.9個百分點,說明強化學習部分補償了這種開銷,但無法完全消除。
在六個視覺問答基準上,TT-OPD在其中五個上達到最好或接近最好的成績:PathVQA 45.3%、SLAKE 32.1%、PMC-VQA 38.9%、VQA-Med-2021 15.2%、Quilt-VQA 30.7%。唯有在VQA-RAD(放射科視覺問答)上,直接用工具但不訓練的版本(63.2%)略高于TT-OPD(63.1%)。和MMLU類似,SLAKE的純文本評測原本高達79.0%,但在多輪評測框架下跌至30.6%,體現了同樣的"智能體額外開銷"。
在電子病歷推理任務上(評測方式是檢查AI是否執行了預期的臨床工具調用序列),TT-OPD在MIMIC-III數據集上得62.7%,在eICU上得57.1%,均優于不訓練版本(62.1%和55.9%)和GRPO(61.1%和55.5%)。
在五個長文本問答基準上,TT-OPD在三個上領先(LiveQA 62.5%、MedicationQA 60.9%、HealthSearchQA 45.3%),而GRPO在兩個知識密集型基準上領先(KQA-Golden 65.3%、KQA-Silver 64.9%)。這種分化與各方法的特點高度吻合:GRPO更高的峰值準確率轉化為更好的事實密度,而TT-OPD的穩定性帶來了更好的結構化臨床推理。
TT-OPD整體在18個基準中的12個上達到最好成績(原文摘要說10個,正文分析后更新為12個),平均比不做任何強化學習訓練的基礎模型高出3.9個百分點。
七、訓練過程透視:穩定性究竟意味著什么
研究團隊詳細記錄了60個訓練步驟中TT-OPD和GRPO的動態變化,這些過程數據本身就很有啟發意義。
在準確率曲線上,兩種方法都呈現"鋸齒形上升"的模式——準確率不是一路平穩提升,而是反復出現"上升-下滑-再上升"的波動,每次下滑后的峰值比上次更高。GRPO在第55步達到62.0%的峰值,TT-OPD在第60步達到61.1%,步驟40-60的均值為59.5%(±1.4個百分點)。GRPO的最終峰值略高,但為此付出了穩定性代價。
在回復長度上,沒有長度控制的版本單調地趨向12288 token的上限,到第40步時91.7%的回復都被強制截斷(截斷意味著推理被打斷,答案可能直接消失在截斷處)。GRPO加入了一些隱性約束但沒有顯式控制,長度在7700到10800 token之間大幅震蕩。TT-OPD加入余弦長度控制后,回復長度穩定維持在5700到9300 token范圍內,既保持了足夠的推理空間,又不至于因為截斷而丟失答案。
在對話輪數上,全程的TT-OPD保持7.0到7.4輪之間,多輪結構完整存續。而僅使用EMA老師但不加結果條件提示的消融版本,對話輪數從訓練開始時的7.82輪緩慢侵蝕到6.23輪——工具調用越來越少,單輪獨白越來越多。
研究團隊還用一個理論分析框架解釋了EMA老師為何能產生"非單調收斂"而不是"發散"。核心直覺是:EMA老師就像學生行為的"彈性記憶"。當學生某一步做出了劇烈的策略偏轉(比如突然決定不再調用工具),學生與老師之間的KL散度急劇增大,這個增大的KL散度反過來產生更強的"拉力"把學生往老師的方向拉。這種自動調節的恢復力,正是非單調收斂的來源。
八、消融實驗:四種"不完整"版本的失敗進化
研究的消融分析設計得非常清晰,通過依次添加各組件,精確定位每個組件解決了什么問題。
最基礎的版本是"周期性老師重置":每隔T步,直接把老師權重替換成學生的當前權重(θT ← θS)。這帶來了災難性的KL崩塌。以T=30的設置為例,在第10步時KL散度從2.637驟降至0.343——對于負責引導學生的蒸餾梯度來說,相當于燈光突然熄滅。結果是準確率從56.9%單調下滑到49.3%,對話輪數從7.65降至5.52。老師和學生瞬間"合體"后,蒸餾信號徹底消失,學生失去了參照,自然而然退化為更省力的單輪應答。
第二個版本是"EMA老師(無結果條件)":改用指數移動平均,解決了KL崩塌問題。KL散度現在平滑增長而非鋸齒崩塌,在第40步時準確率達到53.8%,比第一版好了1.2個百分點。但由于老師沒有"知道答案"這個信息優勢,老師給的反饋是泛化的,無法告訴學生"哪些行為是對的、哪些是錯的"。對話輪數依然從7.82侵蝕到6.23,工具調用逐漸萎縮。
第三個版本是"EMA老師+結果條件提示(無長度控制)":加入了特權提示,引導效果立刻顯現。在訓練第10到第20步之間,準確率出現了一個平臺期,穩定在54.5%——這是老師的結果感知引導在發揮作用的體現。但沒有長度約束,正向提示反而激勵了詳細推理,回復長度單調膨脹,到第40步時91.7%的回復都被截斷,準確率因此崩塌至49.0%。
第四個版本也就是完整的TT-OPD,加入余弦長度控制后,回復爆炸被制止,三個組件各司其職:EMA防止KL崩塌,結果條件提示提供結果感知引導,余弦獎勵防止長度膨脹。準確率以非單調方式收斂到61.1%,對話輪數全程穩定在7.0到7.4輪。
九、一道難以跨越的鴻溝:智能體能力與文本知識能力為何分裂
研究揭示了一個被研究者稱為"智能體-文本遷移缺口"的現象,值得專門討論。
直覺上,一個在模擬醫院里學會了"搜索-評估-提交"診療流程的AI,應該在各類醫學考試題上都表現得更好。但實驗數據并不支持這個直覺。最典型的例子是MMLU醫學子集:基礎模型用對數概率直接評測時有83.8%,加上工具但不訓練反而降到60.6%,經過強化學習訓練的TT-OPD也只能恢復到65.5%,距離原始83.8%仍有18個百分點的差距。
這個現象的本質,是兩種能力之間的結構性差異。文本知識能力依賴參數中儲存的"隱性知識":模型見過足夠多的醫學文本,把"華法林和非甾體抗炎藥聯用有出血風險"這類知識直接"刻"進了權重里,直接輸出答案又快又準。智能體工具調用能力則是一種"程序性知識":知道先查什么、再查什么、如何整合信息。這兩種能力就像"背誦乘法表"和"理解乘法原理"——前者在速度和精確度上的優勢是后者無法匹敵的,但后者能處理背誦表格未覆蓋的情況。
強化學習訓練改變的是程序性決策流程,而非參數內儲存的事實記憶。對于那些靠"直接從參數讀出答案"就能輕松解決的知識回憶題,強制走一遍多步工具調用流程反而會引入額外的錯誤機會——工具調用失敗、格式轉換錯誤、搜索結果與真實答案不一致等等。這就是為什么"加工具但不訓練"在MMLU上比"純文本"更差,而強化學習訓練雖然縮小了差距,卻無法完全彌合。
從對數概率評測角度來看,GRPO訓練后的模型在MedQA上對數概率準確率為70.8%,與基礎模型的70.7%幾乎完全一致。這證明強化學習訓練通過LoRA(一種僅調整部分權重的微調方法,rank=64,覆蓋MLP和注意力投影層)改變了模型的行為模式,但沒有損壞參數中儲存的事實知識——這是一個令人安心的發現。
研究者在討論中提出了這個問題的潛在解決方向:可以設計自適應獎勵權重機制,根據每個維度在訓練過程中的信噪比動態調整權重,使準確度維度的梯度貢獻不因多維混合而被過度稀釋。
歸根結底,這項研究做到了一件以前沒人做成的事:搭建了一個可以系統訓練和評測"AI醫生如何做事"的完整框架,而不只是"AI醫生知道什么"。從三種失敗模式的精準診斷,到五維獎勵系統的價值觀設計,再到TT-OPD逐輪蒸餾方法對訓練不穩定性的系統應對,這項工作展示了多輪工具調用的強化學習在醫療場景下面臨的真實挑戰有多復雜,以及針對這些挑戰的設計選擇需要多么精細。
訓練出來的AI能在MedQA上達到87.1%、在多個臨床任務上穩定保持7輪以上的工具調用對話,并且全程沒有出現單輪獨白崩塌,這意味著"會做事的AI醫生"不再只是設想,而是可以被工程化訓練出來的現實。當然,從模擬病房到真實臨床的距離還很遙遠,安全性和可靠性需要在更嚴格的場景下驗證,但這個訓練框架本身已經是一個扎實的起點。對這個領域感興趣的讀者,可以通過arXiv編號2605.02943找到完整論文,代碼和實驗數據也已公開。
Q&A
Q1:HEALTHCARE AI GYM 和普通醫學問答 AI 有什么本質區別?
A:普通醫學問答AI接收一道題、輸出一個答案,全程一步完成。HEALTHCARE AI GYM讓AI扮演實習醫生,需要依次調用查病歷、查化驗、搜醫學文獻等135種工具,經過多輪對話才能提交診斷——核心差別在于AI要學會"怎么做事",而不只是"記住答案"。
Q2:TT-OPD 為什么需要一個知道答案的"老師",學生自己學不行嗎?
A:多輪對話訓練的核心難題是獎勵稀疏:七八輪對話結束才給一個總分,AI不知道哪一步做對了。老師模型提前知道最終結果,在每一輪都能給出結果感知的引導分布,相當于把"終點的反饋"反向傳遞到每一步,密集填補了獎勵稀疏導致的學習空白。
Q3:經過 HEALTHCARE AI GYM 訓練的 AI 在普通醫學選擇題考試上會變差嗎?
A:對于純知識回憶類題目(如MMLU醫學子集),切換到多輪工具評測框架確實會讓成績從83.8%降至約60%,但這不是參數記憶被破壞——對數概率評測顯示知識保留完整。降分來自強制走工具流程引入的格式錯誤。TT-OPD訓練能將這類損失從-23%縮減至約-18%,在需要程序化推理的MedQA類任務上則反而大幅提升。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.