網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一份來自范德堡大學(xué)、Adobe Research等機(jī)構(gòu)的對(duì)話模擬全景報(bào)告

2026-05-07 21:09:22　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由范德堡大學(xué)、Adobe Research、耶魯大學(xué)、俄勒岡大學(xué)、加州大學(xué)圣地亞哥分校、杜比實(shí)驗(yàn)室、加州大學(xué)伯克利分校、思科AI研究院、南加州大學(xué)、德州農(nóng)工大學(xué)、加州大學(xué)戴維斯分校等十余家機(jī)構(gòu)聯(lián)合開展的研究，以預(yù)印本形式于2026年4月27日發(fā)布在arXiv平臺(tái)，編號(hào)為arXiv:2604.24977v1。這是一篇系統(tǒng)梳理"基于大語言模型的對(duì)話式用戶模擬"領(lǐng)域進(jìn)展的綜述論文，對(duì)于任何關(guān)心AI如何理解、模仿和替代人類對(duì)話行為的讀者而言，這份報(bào)告幾乎是一張完整的地圖。

一、為什么我們需要讓AI"假扮"用戶？

你有沒有想過，當(dāng)一個(gè)客服機(jī)器人在訓(xùn)練的時(shí)候，它怎么知道真實(shí)用戶會(huì)問什么問題？難道真的要雇傭成千上萬個(gè)真人來與它聊天嗎？答案當(dāng)然不是——這就是"用戶模擬"技術(shù)存在的根本原因。

用戶模擬，簡(jiǎn)單來說，就是用程序模擬真實(shí)人類的對(duì)話行為。這個(gè)需求由來已久，早在人們玩《模擬人生》這類游戲時(shí)，背后就有一套程序在模擬虛擬居民的喜好和行為。而在計(jì)算機(jī)科學(xué)領(lǐng)域，用戶模擬一直是推薦系統(tǒng)、對(duì)話系統(tǒng)、人機(jī)交互研究的幕后功臣——每當(dāng)一個(gè)AI系統(tǒng)需要在正式上線前反復(fù)練習(xí)，模擬用戶就是那個(gè)陪它練習(xí)的"假想敵"。

然而，過去的模擬方法有一個(gè)嚴(yán)重的局限：它們太"死板"了。傳統(tǒng)的統(tǒng)計(jì)模型，比如用來預(yù)測(cè)你下一步會(huì)點(diǎn)哪個(gè)商品的協(xié)同過濾算法，或者用來猜測(cè)你在搜索結(jié)果上會(huì)不會(huì)點(diǎn)擊的點(diǎn)擊模型，都需要大量真實(shí)用戶數(shù)據(jù)來訓(xùn)練，而且每套模型只能用于特定場(chǎng)景。想換個(gè)場(chǎng)景？重新訓(xùn)練。想模擬更復(fù)雜的對(duì)話？對(duì)不起，超出能力范圍。

大語言模型（LLM）的出現(xiàn)徹底改變了這一局面。這類模型——比如你可能聽說過的ChatGPT——通過閱讀海量的人類文字，學(xué)會(huì)了用自然語言進(jìn)行對(duì)話。正因如此，它們天然具備了"模擬人類對(duì)話"的能力，而且不需要為每個(gè)場(chǎng)景單獨(dú)訓(xùn)練。這就像一個(gè)演員，過去只能演固定的角色，現(xiàn)在突然獲得了即興創(chuàng)作的能力，可以扮演任何角色、應(yīng)對(duì)任何場(chǎng)景。

這篇綜述正是在這個(gè)背景下應(yīng)運(yùn)而生。研究團(tuán)隊(duì)注意到，雖然已經(jīng)有大量研究在利用大語言模型模擬用戶對(duì)話，但這個(gè)領(lǐng)域缺少一個(gè)系統(tǒng)性的框架來理解和整理這些工作。于是，他們從浩如煙海的文獻(xiàn)中梳理出一套統(tǒng)一的分類體系，回答三個(gè)核心問題：模擬的是誰？模擬的是什么？用什么方法模擬？

二、模擬的是誰？從"大眾臉"到"獨(dú)一無二的你"

正如在現(xiàn)實(shí)生活中，"用戶"這個(gè)詞可以指代非常不同的人——有的人是隨便逛逛的路人，有的人有鮮明的個(gè)性，有的人是某個(gè)歷史人物，有的人就是你這個(gè)具體的個(gè)體——對(duì)話模擬也面臨同樣的分層需求。研究團(tuán)隊(duì)將模擬對(duì)象分為四個(gè)層次，從最籠統(tǒng)到最精細(xì)，構(gòu)成了一個(gè)由淺入深的譜系。

最基礎(chǔ)的層次是"通用用戶模擬"。這種模擬不給AI任何特殊信息，就讓它扮演一個(gè)普通用戶——沒有姓名、沒有背景、沒有特定偏好，就是一個(gè)"平均人"。這類模擬的優(yōu)點(diǎn)是簡(jiǎn)單通用，缺點(diǎn)是缺乏個(gè)性。ChatGPT默認(rèn)情況下扮演的就是這樣一個(gè)角色。近年來，研究者們?cè)谶@個(gè)方向上做了不少改進(jìn)，比如通過多輪對(duì)話的優(yōu)化策略讓模擬更自然，或者通過"失敗案例學(xué)習(xí)"讓模擬更健壯。

更精細(xì)一層的是"人格級(jí)用戶模擬"。這里，AI被賦予了一套具體的屬性，比如年齡、職業(yè)、興趣愛好、說話風(fēng)格等。用一個(gè)類比來說：通用用戶模擬像是用面粉加水做出的一塊白面團(tuán)，而人格級(jí)模擬則是在面團(tuán)里加入了香料和色素，讓它有了明確的味道和顏色。研究者們探索了多種賦予AI"人格"的方法，包括直接在提示詞里描述人格特征、使用心理學(xué)量表（比如著名的"大五人格"模型）來量化人格、以及訓(xùn)練專門的模型來穩(wěn)定表現(xiàn)特定人格特質(zhì)。

然而，這條路并非坦途。研究發(fā)現(xiàn)，給AI賦予特定人格有時(shí)會(huì)帶來意想不到的副作用：模擬某些敏感人口群體時(shí)，AI可能會(huì)放大偏見和刻板印象；模擬政治立場(chǎng)時(shí)，結(jié)果可能偏向某一方；更嚴(yán)重的是，某些人格配置甚至?xí)?dǎo)致AI產(chǎn)生更多有毒內(nèi)容。這提醒我們，"人格模擬"不只是技術(shù)問題，更是倫理問題。

第三個(gè)層次是"角色扮演模擬"。與人格級(jí)模擬不同，這里模擬的不是一組抽象屬性，而是一個(gè)具體的人物——可以是歷史人物、小說角色，甚至是真實(shí)存在的公眾人物。正如人格級(jí)模擬可以描述"一個(gè)20歲的程序員"，而角色扮演則能呈現(xiàn)"20歲時(shí)的馬克·扎克伯格"，包括他當(dāng)年的說話風(fēng)格、思維方式和歷史背景。AI在這里調(diào)用的是它在訓(xùn)練時(shí)積累的關(guān)于這個(gè)人物的隱性知識(shí)。

為了讓角色扮演更逼真，研究者們開發(fā)了各種技術(shù)：有的通過精心設(shè)計(jì)的提示詞來引導(dǎo)AI進(jìn)入角色，有的通過微調(diào)訓(xùn)練讓AI更穩(wěn)定地保持角色特征，有的則通過"自我對(duì)弈"（讓AI自己和自己對(duì)話）來強(qiáng)化角色一致性。但挑戰(zhàn)也隨之而來：當(dāng)角色知識(shí)與訓(xùn)練數(shù)據(jù)不一致時(shí)，AI可能會(huì)產(chǎn)生"角色幻覺"——比如讓一個(gè)莫扎特角色回答編程問題，AI可能會(huì)給出莫扎特絕不可能知道的內(nèi)容。更危險(xiǎn)的是，有研究者發(fā)現(xiàn)，角色扮演的漏洞甚至可以被用來繞過AI的安全限制，誘導(dǎo)它說出有害內(nèi)容。

最精細(xì)的層次是"個(gè)體用戶模擬"，也是最接近"復(fù)刻真實(shí)的你"的嘗試。這里，AI的依據(jù)不是泛泛的人格描述，而是某個(gè)具體用戶留下的真實(shí)軌跡：聊天記錄、文檔、操作歷史……總之，是那個(gè)人所有可以獲取的個(gè)人上下文。這就像是用一個(gè)人的日記、照片和視頻來訓(xùn)練一個(gè)"數(shù)字分身"，它說話的方式、關(guān)心的話題都與那個(gè)真實(shí)的人高度吻合。實(shí)現(xiàn)這一目標(biāo)的技術(shù)路徑包括：直接將用戶資料注入提示詞、從對(duì)話歷史中學(xué)習(xí)個(gè)人化表達(dá)習(xí)慣、以及跨多次對(duì)話會(huì)話維持長(zhǎng)期記憶等。

在實(shí)踐中，這四個(gè)層次往往并非涇渭分明。大型模型如GPT和LLaMA在使用時(shí)常常自然地混合了這些層次的特征——一個(gè)"通用"的ChatGPT在回答時(shí)，實(shí)際上可能已經(jīng)在某種程度上展現(xiàn)了人格和角色的痕跡。研究團(tuán)隊(duì)將這種現(xiàn)象稱為"混合用戶模擬"，并指出這種混合在多智能體交互場(chǎng)景中尤為常見，也尤為需要系統(tǒng)性的理論框架來加以理解。

三、模擬的是什么？四種對(duì)話劇本

確定了"模擬誰"之后，下一個(gè)問題是"模擬什么樣的對(duì)話"。研究團(tuán)隊(duì)將對(duì)話模擬的目標(biāo)分為四種基本范式，就像四種不同的劇本類型。

第一種是"人類與AI之間的對(duì)話模擬"。這是最常見的場(chǎng)景：一方是被模擬的人類用戶，另一方是AI系統(tǒng)。模擬的目標(biāo)通常是生成高質(zhì)量的訓(xùn)練數(shù)據(jù)，或者測(cè)試AI系統(tǒng)的能力邊界。一個(gè)典型的應(yīng)用是生成"指令-回答"對(duì)，來訓(xùn)練更聽話、更有用的AI助手。Self-Instruct、WizardLM等知名框架都屬于這類應(yīng)用的典型案例。此外，醫(yī)療領(lǐng)域的"模擬患者與醫(yī)生對(duì)話"、博物館的"AI導(dǎo)覽對(duì)話"等，也都是這一范式的具體落地。

第二種是"人類與人類之間的對(duì)話模擬"。這里，兩個(gè)對(duì)話方都是被模擬的人類，AI扮演的是幕后的"對(duì)話生成器"角色。這類模擬對(duì)于研究人類自然對(duì)話非常有價(jià)值，也被廣泛用于構(gòu)建對(duì)話數(shù)據(jù)集。著名的PersonaChat數(shù)據(jù)集就是讓真實(shí)用戶扮演帶有具體人格特征的角色互相對(duì)話，而EmpatheticDialogues數(shù)據(jù)集則聚焦于情感共鳴的人際對(duì)話。除了人工采集，研究者們也探索了"自我對(duì)弈"策略，讓系統(tǒng)自動(dòng)生成大量模擬對(duì)話，從而降低對(duì)人工標(biāo)注的依賴。

第三種是"AI與AI之間的對(duì)話模擬"。兩個(gè)AI智能體在沒有持續(xù)人類介入的情況下互相對(duì)話，只需要一個(gè)初始的"種子提示"來啟動(dòng)對(duì)話。這類模擬的最大價(jià)值在于規(guī)模和速度：AI可以不知疲倦地24小時(shí)生成對(duì)話數(shù)據(jù)，速度遠(yuǎn)超人工。更有趣的是，研究者們發(fā)現(xiàn)，當(dāng)多個(gè)AI智能體在共享的虛擬環(huán)境中長(zhǎng)期交互時(shí)，它們會(huì)自發(fā)地涌現(xiàn)出類似人類社會(huì)的行為模式——比如形成社會(huì)規(guī)范、建立合作關(guān)系、甚至展開策略性博弈。斯坦福大學(xué)著名的"Smallville"虛擬小鎮(zhèn)實(shí)驗(yàn)就是這類研究的代表，25個(gè)AI智能體在一個(gè)虛擬社區(qū)里"生活"，自發(fā)產(chǎn)生了令人驚嘆的社交行為。

第四種是"多人類與AI之間的對(duì)話模擬"。這是前三種范式的進(jìn)一步延伸：多個(gè)人類用戶同時(shí)與一個(gè)或多個(gè)AI系統(tǒng)交互，形成群體性的協(xié)作對(duì)話。這類場(chǎng)景在現(xiàn)實(shí)中越來越普遍——比如多人參與的在線會(huì)議、團(tuán)隊(duì)協(xié)作工具、多人教育平臺(tái)等。研究者們已經(jīng)探索了AI作為團(tuán)隊(duì)成員參與軟件開發(fā)協(xié)作、AI替代缺席的會(huì)議參與者等應(yīng)用場(chǎng)景。

值得注意的是，在真實(shí)系統(tǒng)中，這四種范式往往會(huì)相互滲透和混合。就像Smallville虛擬小鎮(zhèn)，從宏觀上看是AI與AI的交互，但每個(gè)AI智能體的內(nèi)部對(duì)話卻呈現(xiàn)出人類對(duì)話的特征。研究團(tuán)隊(duì)將這種現(xiàn)象稱為"混合模擬"，并呼吁學(xué)界建立更系統(tǒng)的理論框架來理解和評(píng)估這類復(fù)雜場(chǎng)景。

四、用什么方法模擬？從提示詞到強(qiáng)化學(xué)習(xí)的工具箱

知道了"模擬誰"和"模擬什么"，剩下的關(guān)鍵問題是"怎么做"。研究團(tuán)隊(duì)梳理了四大類核心技術(shù)方法，從最簡(jiǎn)單到最復(fù)雜，構(gòu)成了一個(gè)完整的技術(shù)工具箱。

最直接的方法是"基于提示詞的模擬"。這就像是給AI下達(dá)工作指令——你告訴它"你現(xiàn)在是一個(gè)20歲的大學(xué)生，對(duì)籃球感興趣，語氣要隨意"，然后讓它生成對(duì)話。根據(jù)提示詞的詳細(xì)程度和格式，這類方法可以分為幾個(gè)子類型。零樣本提示（不給任何示例，直接描述要求）和少樣本提示（提供幾個(gè)示例對(duì)話作為參考）是最簡(jiǎn)單的形式，適合快速生成大量多樣化的對(duì)話數(shù)據(jù)。思維鏈提示則更進(jìn)一步，要求AI在生成對(duì)話之前先展示自己的推理過程，就像讓學(xué)生先打草稿再寫答案，這樣生成的對(duì)話邏輯更嚴(yán)密。人格和角色扮演提示則專門用于賦予AI特定的身份特征，讓生成的對(duì)話更有個(gè)性。任務(wù)特定提示則針對(duì)特定領(lǐng)域（比如醫(yī)療咨詢、技術(shù)支持）定制對(duì)話生成規(guī)則。

第二類方法是"檢索增強(qiáng)生成（RAG）"。單靠AI自身的知識(shí)有時(shí)候不夠用，于是研究者們給AI配備了一個(gè)"外掛搜索引擎"——在生成每一輪對(duì)話之前，先從外部知識(shí)庫里檢索相關(guān)信息，再把這些信息喂給AI來生成更準(zhǔn)確、更有信息量的回復(fù)。這就像一個(gè)演員在表演前先快速查閱角色的背景資料。根據(jù)檢索的觸發(fā)機(jī)制，這類方法又可以細(xì)分為三種變體：始終觸發(fā)型（每一輪對(duì)話都檢索），自適應(yīng)觸發(fā)型（由一個(gè)學(xué)習(xí)到的分類器決定什么時(shí)候需要檢索，從而避免無謂的檢索浪費(fèi)），以及目標(biāo)/狀態(tài)驅(qū)動(dòng)型（根據(jù)用戶當(dāng)前的目標(biāo)和記憶狀態(tài)來決定檢索什么內(nèi)容）。

第三類方法是"微調(diào)"。這相當(dāng)于從頭開始培訓(xùn)一個(gè)專門的演員，而不是臨時(shí)找一個(gè)通用演員來客串。具體做法是：收集一批真實(shí)的用戶對(duì)話數(shù)據(jù)，然后用這些數(shù)據(jù)對(duì)預(yù)訓(xùn)練的大語言模型進(jìn)行再訓(xùn)練，讓它專門學(xué)會(huì)如何像真實(shí)用戶那樣說話。根據(jù)訓(xùn)練方式的不同，微調(diào)技術(shù)又分為全量參數(shù)微調(diào)（把整個(gè)模型都重新訓(xùn)練一遍，效果好但成本高）、參數(shù)高效微調(diào)（只調(diào)整模型中一小部分參數(shù)，成本更低，常用LoRA等輕量化方法），以及交互式/自我對(duì)弈微調(diào)（讓模型在與系統(tǒng)的交互反饋中不斷優(yōu)化自己）。SoulChat用這種方法在240萬輪同理心對(duì)話數(shù)據(jù)上訓(xùn)練出了一個(gè)擅長(zhǎng)情感支持的對(duì)話模型，DAUS則通過微調(diào)將對(duì)話系統(tǒng)的幻覺率降低了一半。

第四類方法是"強(qiáng)化學(xué)習(xí)與直接偏好優(yōu)化（RL/DPO）"。這是最復(fù)雜也最強(qiáng)大的一類方法。與微調(diào)不同，強(qiáng)化學(xué)習(xí)不是告訴AI"應(yīng)該怎么說"，而是通過獎(jiǎng)勵(lì)和懲罰來讓AI自己摸索出最優(yōu)的對(duì)話策略。就像訓(xùn)練小狗：做對(duì)了給零食，做錯(cuò)了不給。在用戶模擬領(lǐng)域，這類方法被用來訓(xùn)練能夠主動(dòng)探索用戶偏好、長(zhǎng)期規(guī)劃對(duì)話策略、或者精準(zhǔn)識(shí)別用戶意圖的模擬器。ArCHer系統(tǒng)就是這類方法的代表，它采用分層強(qiáng)化學(xué)習(xí)，一個(gè)高層策略負(fù)責(zé)規(guī)劃宏觀對(duì)話目標(biāo)，一個(gè)低層策略負(fù)責(zé)生成具體的詞語，兩者協(xié)作來優(yōu)化跨越數(shù)十輪的長(zhǎng)對(duì)話。

在實(shí)踐中，最先進(jìn)的系統(tǒng)往往綜合運(yùn)用多種方法。檢索增強(qiáng)的微調(diào)（在訓(xùn)練時(shí)就把檢索到的知識(shí)注入進(jìn)去，而不只是在推理時(shí)用），提示詞到微調(diào)的流水線（先用提示詞生成大量合成數(shù)據(jù)，再用這些數(shù)據(jù)微調(diào)模型），RAG與強(qiáng)化學(xué)習(xí)的循環(huán)（檢索機(jī)制和策略優(yōu)化相互協(xié)作）……這些混合方法代表了該領(lǐng)域目前最前沿的技術(shù)狀態(tài)。

五、如何判斷模擬做得好不好？評(píng)估的三把尺子

做出了用戶模擬，怎么評(píng)價(jià)它做得好不好？這看似簡(jiǎn)單的問題，其實(shí)是研究中最棘手的挑戰(zhàn)之一。

最傳統(tǒng)的評(píng)估手段是用各種計(jì)算指標(biāo)來量化對(duì)話質(zhì)量。比如BLEU和ROUGE，這兩個(gè)指標(biāo)通過比較生成的對(duì)話與參考對(duì)話之間的詞語重疊程度來打分，就像用相似度來衡量?jī)善恼掠卸嘞瘛２畚籉1（Slot-F1）則專門用于任務(wù)型對(duì)話，檢查AI有沒有正確理解和完成用戶的具體請(qǐng)求，比如訂餐時(shí)有沒有正確記錄"不放辣"這個(gè)條件。這類指標(biāo)的優(yōu)點(diǎn)是快速、可重復(fù)，缺點(diǎn)是只能捕捉對(duì)話的表面特征，無法評(píng)估對(duì)話是否真正自然、是否真正符合人類的說話方式。

正因如此，人工評(píng)估在高要求場(chǎng)景下仍然是黃金標(biāo)準(zhǔn)。評(píng)估者會(huì)直接閱讀對(duì)話記錄，從自然度、連貫性、人格一致性、任務(wù)完成度等多個(gè)維度打分，或者在兩個(gè)系統(tǒng)之間做AB測(cè)試。雖然耗時(shí)費(fèi)力，但這種評(píng)估方式能捕捉到那些數(shù)字指標(biāo)無法衡量的細(xì)膩維度——比如"這句話聽起來像真人說的嗎？"

近年來興起的"LLM作為評(píng)判者"（LLM-as-Judge）方法則代表了一種折中方案：讓另一個(gè)強(qiáng)大的AI來自動(dòng)評(píng)估模擬對(duì)話的質(zhì)量。實(shí)際操作中，評(píng)估者通常會(huì)先定義評(píng)估維度和打分量表（比如1到5分的李克特量表），再提供幾個(gè)校準(zhǔn)示例，然后讓AI評(píng)判者在給出最終分?jǐn)?shù)之前先解釋自己的推理過程。這種方法的優(yōu)點(diǎn)是速度快、成本低；缺點(diǎn)是AI評(píng)判者本身也有局限性，容易受提示詞措辭的影響，并且可能帶有自己的偏見。為了解決這個(gè)問題，研究者們探索了對(duì)稱提示（同時(shí)從兩個(gè)方向評(píng)估）、多評(píng)判者投票、以及用人工評(píng)分來驗(yàn)證AI評(píng)分可靠性等方法。

除了這三類主流評(píng)估方法，研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了"可信賴評(píng)估"和"因果/離線評(píng)估"的重要性。這類評(píng)估不只關(guān)注對(duì)話質(zhì)量，還要檢驗(yàn)?zāi)M系統(tǒng)在面對(duì)不確定性時(shí)是否可靠，在遇到分布偏移（即實(shí)際使用環(huán)境與訓(xùn)練環(huán)境不同時(shí)）時(shí)是否依然穩(wěn)健，以及能否在不同話題和用戶群體之間保持一致性。

六、這些技術(shù)用在哪里？從推薦系統(tǒng)到課堂教學(xué)

用戶模擬不是一項(xiàng)自說自話的研究，它的價(jià)值在于能夠服務(wù)于多樣化的現(xiàn)實(shí)應(yīng)用。研究團(tuán)隊(duì)梳理了這一技術(shù)目前最主要的幾個(gè)落地領(lǐng)域。

在推薦系統(tǒng)領(lǐng)域，用戶模擬幫助開發(fā)者在不需要大量真實(shí)用戶參與的情況下，測(cè)試和優(yōu)化推薦算法。通過配置不同偏好和行為模式的模擬用戶，研究者可以系統(tǒng)地評(píng)估推薦系統(tǒng)在各種場(chǎng)景下的表現(xiàn)，包括那些真實(shí)用戶很少遇到的極端情況。CSHI框架就是專門為對(duì)話式推薦系統(tǒng)設(shè)計(jì)的可控可擴(kuò)展模擬工具，它能夠模擬用戶的偏好記憶和實(shí)時(shí)反饋，讓推薦系統(tǒng)的測(cè)試更全面也更真實(shí)。

在教育領(lǐng)域，用戶模擬正在開啟一種全新的教學(xué)輔助方式。模擬學(xué)生可以幫助教師或教學(xué)AI在上崗前反復(fù)練習(xí)，就像飛行員在模擬器里練習(xí)起降，教師也可以在模擬課堂里練習(xí)應(yīng)對(duì)各種學(xué)生反應(yīng)，而不必?fù)?dān)心影響真實(shí)學(xué)生。另一方面，模擬教師和智能輔導(dǎo)系統(tǒng)也在不斷發(fā)展，為學(xué)生提供個(gè)性化的學(xué)習(xí)支持。模擬"不同認(rèn)知水平的學(xué)生"——包括那些常犯的錯(cuò)誤和典型的誤解——是這個(gè)方向的重要研究前沿。

在人機(jī)交互和界面設(shè)計(jì)領(lǐng)域，用戶對(duì)話模擬提供了一種低成本的早期測(cè)試手段。一個(gè)簡(jiǎn)單的現(xiàn)實(shí)是：很多公司的用戶研究團(tuán)隊(duì)嚴(yán)重不足，研究員與設(shè)計(jì)師的比例有時(shí)低至1:5。在這種資源約束下，模擬用戶可以幫助設(shè)計(jì)團(tuán)隊(duì)在真實(shí)用戶測(cè)試之前發(fā)現(xiàn)大量潛在問題，大幅節(jié)省時(shí)間和成本。一項(xiàng)有趣的研究甚至發(fā)現(xiàn)，AI模擬對(duì)話有時(shí)被人類評(píng)估者認(rèn)為比真實(shí)用戶的回應(yīng)"更像人"——這固然令人驚訝，但也說明模擬技術(shù)已經(jīng)達(dá)到了相當(dāng)?shù)谋普娉潭取?/p>

在視頻理解領(lǐng)域，用戶對(duì)話模擬開始承擔(dān)全新角色。VideoAutoArena框架利用模擬用戶來生成開放式的、針對(duì)視頻內(nèi)容的自適應(yīng)問題，然后用這些問題來評(píng)估AI的視頻理解能力。相比傳統(tǒng)的靜態(tài)選擇題測(cè)試，這種模擬用戶驅(qū)動(dòng)的評(píng)估更能反映真實(shí)用戶在觀看視頻時(shí)的信息需求。

七、還有哪些沒解決的難題？

說完了成就，研究團(tuán)隊(duì)也坦誠(chéng)地列出了這個(gè)領(lǐng)域目前面臨的主要挑戰(zhàn)，這些挑戰(zhàn)揭示了從"能用"到"好用"之間還有多遠(yuǎn)的距離。

長(zhǎng)對(duì)話的一致性問題是最突出的挑戰(zhàn)之一。模擬系統(tǒng)在短對(duì)話中表現(xiàn)不錯(cuò)，但一旦對(duì)話延伸到數(shù)十輪乃至更長(zhǎng)，問題就開始涌現(xiàn)：人格開始漂移（前幾輪說自己是素食主義者，后來又說喜歡吃烤肉）、目標(biāo)開始模糊（忘記了最初的對(duì)話目的）、甚至出現(xiàn)自相矛盾的陳述。更根本的問題是，模擬用戶往往"太配合"——真實(shí)用戶會(huì)拒絕、會(huì)走神、會(huì)改變?cè)掝}，而模擬用戶則傾向于一路配合到底，顯得不夠真實(shí)。解決這些問題需要更強(qiáng)的記憶機(jī)制、更好的話語規(guī)劃能力以及更真實(shí)的"用戶行為模型"。

多樣性不足是另一個(gè)深層挑戰(zhàn)?，F(xiàn)有的模擬系統(tǒng)傾向于復(fù)現(xiàn)訓(xùn)練數(shù)據(jù)中占主流的文化和語言模式，導(dǎo)致生成的對(duì)話過于禮貌、過于同質(zhì)化，缺乏真實(shí)用戶群體中那種豐富的個(gè)體差異。雖然提示詞技術(shù)可以在一定程度上引導(dǎo)模擬產(chǎn)生不同的情緒、詳細(xì)程度和表達(dá)策略，但這種控制能力仍然有限。大多數(shù)研究還停留在單用戶場(chǎng)景，對(duì)多用戶動(dòng)態(tài)交互和群體行為的模擬幾乎還沒有成熟的方法。

偏見和有害內(nèi)容的風(fēng)險(xiǎn)則是最需要認(rèn)真對(duì)待的挑戰(zhàn)。當(dāng)模擬涉及敏感人口群體或公眾人物時(shí)，大語言模型可能將訓(xùn)練數(shù)據(jù)中的偏見放大，生成帶有歧視性刻板印象的內(nèi)容，甚至在某些角色扮演配置下產(chǎn)生有毒輸出。這類風(fēng)險(xiǎn)不僅會(huì)影響研究本身的可靠性，更會(huì)在實(shí)際部署時(shí)造成真實(shí)的社會(huì)危害。目前，提示詞過濾和模型對(duì)齊技術(shù)提供了部分防護(hù)，但針對(duì)模擬場(chǎng)景的專門安全協(xié)議仍然缺失。

評(píng)估標(biāo)準(zhǔn)不統(tǒng)一是貫穿整個(gè)領(lǐng)域的橫向問題。不同研究使用不同的評(píng)估維度、不同的打分量表、不同的評(píng)判者，導(dǎo)致結(jié)果之間幾乎無法比較。建立一套標(biāo)準(zhǔn)化的、多層次的評(píng)估流程，是這個(gè)領(lǐng)域走向成熟的必要條件。

此外，角色扮演中的知識(shí)更新問題也日益突出。模擬靜態(tài)的歷史人物或虛構(gòu)角色相對(duì)容易，但如果要模擬一個(gè)活躍的現(xiàn)實(shí)人物——比如某位CEO或科學(xué)家——就需要AI隨著那個(gè)人的公開行為和知識(shí)不斷更新，同時(shí)又要保持角色的一致性。如何在"與時(shí)俱進(jìn)"和"保持角色穩(wěn)定"之間取得平衡，目前還沒有成熟的解決方案。

歸根結(jié)底，這份報(bào)告是一張既展示了成就、也誠(chéng)實(shí)標(biāo)注了空白地帶的地圖。大語言模型確實(shí)給對(duì)話式用戶模擬帶來了革命性的提升，讓研究者們能夠以前所未有的規(guī)模和靈活度生成高質(zhì)量的模擬對(duì)話。但距離真正逼真、真正可信、真正公平的用戶模擬，這個(gè)領(lǐng)域還有相當(dāng)長(zhǎng)的路要走。

對(duì)于普通人來說，這項(xiàng)研究的意義也許在于：當(dāng)你下次與一個(gè)客服機(jī)器人、教育AI或智能推薦系統(tǒng)交互時(shí)，你可以思考一下——它對(duì)你行為的理解，有多少來自對(duì)真實(shí)人類的觀察，又有多少來自某個(gè)模擬系統(tǒng)生成的"假想用戶"？模擬的越來越像真的，真的和假的之間的界限在哪里？這或許是值得我們每個(gè)人去思考的問題。

有興趣深入探索的讀者可以通過arXiv編號(hào)2604.24977查閱完整論文，原文包含了超過300篇參考文獻(xiàn)的完整索引和數(shù)十張分類表格，是深入了解這一領(lǐng)域的極佳起點(diǎn)。

Q&A

Q1：大語言模型用戶模擬和傳統(tǒng)用戶模擬方法有什么主要區(qū)別？

A：傳統(tǒng)用戶模擬需要大量真實(shí)用戶數(shù)據(jù)訓(xùn)練，而且只能用于特定場(chǎng)景，換場(chǎng)景就得重新訓(xùn)練。大語言模型用戶模擬依賴模型在預(yù)訓(xùn)練階段積累的海量語言知識(shí)，不需要為每個(gè)場(chǎng)景單獨(dú)訓(xùn)練，也不需要大量領(lǐng)域數(shù)據(jù)，還能通過提示詞靈活調(diào)整模擬對(duì)象的特征，適應(yīng)范圍更廣，成本也更低。

Q2：角色扮演模擬中提到的"角色幻覺"是什么意思？

A：角色幻覺是指AI在扮演某個(gè)角色時(shí)，生成了與該角色真實(shí)特征不符的內(nèi)容。比如讓AI扮演莫扎特，它可能會(huì)給出莫扎特不可能知道的現(xiàn)代編程知識(shí)。更嚴(yán)重的是，這種角色扮演的漏洞有時(shí)會(huì)被利用來繞過AI的安全限制，誘導(dǎo)它說出在正常情況下會(huì)拒絕說的內(nèi)容，是當(dāng)前角色扮演研究中需要重點(diǎn)防范的安全問題。

Q3：對(duì)話式用戶模擬技術(shù)在教育領(lǐng)域具體是怎么用的？

A：在教育領(lǐng)域，用戶模擬主要有兩種用途。一是模擬學(xué)生，幫助教師或教學(xué)AI在上線前練習(xí)應(yīng)對(duì)各種學(xué)生問題和反應(yīng)，類似飛行模擬器的作用，讓教學(xué)者在低風(fēng)險(xiǎn)環(huán)境下反復(fù)練習(xí)。二是模擬教師或輔導(dǎo)員，為真實(shí)學(xué)生提供個(gè)性化的學(xué)習(xí)支持和問題解答。目前研究前沿是如何讓模擬學(xué)生更真實(shí)地呈現(xiàn)不同認(rèn)知水平下的典型錯(cuò)誤和誤解，從而讓教學(xué)練習(xí)更有針對(duì)性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.