![]()
這項由微軟研究院主導(dǎo)的研究以技術(shù)報告形式發(fā)布于2026年4月30日,編號為arXiv:2604.28181v1,研究成果已開源并托管于微軟的HuggingFace數(shù)據(jù)集倉庫(microsoft/synthetic-computers-at-scale)。感興趣的讀者可以通過上述編號查詢完整報告。
每個人的工作方式都有自己的"味道"。財務(wù)顧問的電腦里塞滿了客戶報告、Excel模型和行業(yè)白皮書;軟件工程師的機(jī)器上則是代碼倉庫、測試日志和技術(shù)文檔。這些文件不只是數(shù)據(jù),它們是這個人工作記憶的物理延伸,承載著數(shù)年積累的上下文信息。當(dāng)你請一位顧問幫你分析投資方案時,他首先會打開自己之前做的模板,翻出過往客戶的類似案例,然后再開始工作——而不是憑空創(chuàng)造一切。
這個細(xì)節(jié),恰恰是當(dāng)前AI助手訓(xùn)練中最被忽視的一環(huán)。微軟研究院的研究團(tuán)隊注意到:現(xiàn)實中的專業(yè)工作,永遠(yuǎn)是在一個特定的個人環(huán)境中進(jìn)行的,而這個環(huán)境里充滿了歷史、文件和關(guān)系。要讓AI真正學(xué)會做"生產(chǎn)力工作",僅僅給它一個任務(wù)描述是遠(yuǎn)遠(yuǎn)不夠的,必須給它一臺"真實的電腦"。
于是,他們開始了一個頗為大膽的實驗:為AI量身定制一千臺虛擬電腦,然后讓AI在上面工作整整一個月。
一、為什么AI需要一臺"屬于自己的電腦"
現(xiàn)有的AI訓(xùn)練方法面臨一個根本性的困境。要訓(xùn)練AI完成真實的辦公室工作,最好的素材當(dāng)然是真實用戶的工作軌跡——他們?nèi)绾嗡阉魑募⑷绾涡薷膱蟾妗⑷绾闻c同事溝通。但這些數(shù)據(jù)幾乎不可能獲得,因為它們深藏在私人電腦里,包含著敏感的個人信息和商業(yè)機(jī)密。
另一條路是合成數(shù)據(jù),也就是讓AI自己生成訓(xùn)練用的例子。但傳統(tǒng)的合成數(shù)據(jù)有一個致命缺陷:它生成的任務(wù)往往是"懸空的",就像出一道數(shù)學(xué)題,題目本身包含了所有需要的信息,解題者不需要去翻箱倒柜找舊資料。真實的工作不是這樣的。真實的工作是:你需要打開三年前做的預(yù)算表,參考上周收到的客戶郵件,再結(jié)合今天下載的行業(yè)報告,綜合這些來自不同地方的信息才能完成今天的任務(wù)。
研究團(tuán)隊將這個核心洞察歸納為三條原則:專業(yè)工作在本質(zhì)上是重度依賴上下文的,成功完成工作的關(guān)鍵不在于解決孤立任務(wù),而在于跨越較長時間段有效利用文件、歷史和不斷演化的工作狀態(tài),因此合成數(shù)據(jù)必須同時合成"環(huán)境"本身,而不僅僅是任務(wù)。
正因為此,他們提出了"合成電腦"這一概念——不只是生成一個任務(wù),而是生成一整臺虛擬電腦,包括文件夾結(jié)構(gòu)、各類文檔、表格、演示文稿,以及這些文件之間錯綜復(fù)雜的依賴關(guān)系。
二、如何從一個陌生人的描述出發(fā),建造一臺完整的虛擬電腦
建造一臺虛擬電腦的起點,是一段人物簡介。
研究團(tuán)隊使用了他們此前開發(fā)的大規(guī)模人物簡介生成方法(曾生成十億級別的角色描述),從中抽取一千個不同職業(yè)的角色,作為每臺虛擬電腦的"主人"。這些簡介類似于:一位專注于資產(chǎn)配置和投資組合分析的財務(wù)顧問,熟悉先鋒集團(tuán)的資本市場模型,致力于將預(yù)測數(shù)據(jù)轉(zhuǎn)化為具體的投資建議。
僅憑這段描述,無法確定這臺電腦上應(yīng)該有什么文件。因此,第一步是把這段簡介擴(kuò)展成一份詳盡的用戶檔案。這份檔案會補(bǔ)全幾乎所有現(xiàn)實細(xì)節(jié):這個人叫什么名字(比如瑪格麗特·福賽斯),在哪家公司工作(比如梅里迪安財富合伙人),有多少年工作經(jīng)驗,負(fù)責(zé)哪些項目,與誰協(xié)作,慣用哪些軟件工具,如何命名文件,文件整理風(fēng)格是整潔還是凌亂,喜不喜歡保留多個版本的草稿。
檔案建立之后,第二步是為這臺虛擬電腦規(guī)劃文件系統(tǒng)。就像建房子先畫圖紙一樣,這一步會確定驅(qū)動器布局(比如C盤存系統(tǒng),D盤存工作數(shù)據(jù)),決定哪些文件夾放什么類型的內(nèi)容,確立命名規(guī)則(比如這位財務(wù)顧問傾向于用"IPS草稿v1.docx"這類描述性且?guī)О姹咎柕奈募⑶乙?guī)劃各文件夾之間的關(guān)聯(lián)方式。
規(guī)劃完成后,第三步是列出所有需要存在的具體文件,并建立一張"依賴關(guān)系圖"。這張圖至關(guān)重要:它記錄了哪個文件是從哪個文件派生出來的。比如,先鋒集團(tuán)的回報預(yù)測摘要PDF(從網(wǎng)上下載的原始資料)派生出了一份結(jié)構(gòu)化的Excel工作簿(手動整理的數(shù)據(jù)),這個工作簿又進(jìn)一步派生出了多個投資組合的分配模型,最終匯總成一份2026年資本市場展望報告。這個派生鏈模擬了真實工作中文件逐步演化的過程,避免了每個文件都是"獨立生成"的孤島感。
第四步才是真正創(chuàng)建這些文件的內(nèi)容。文件按照依賴關(guān)系圖的拓?fù)漤樞蛏桑簺]有前置依賴的文件先生成,然后依次生成依賴它們的文件,后期文件生成時可以參考并引用它們"派生自"的早期文件。如果某個文件被標(biāo)記為可以從真實互聯(lián)網(wǎng)獲取的公開資料(比如真實的行業(yè)報告PDF),系統(tǒng)會先嘗試直接下載,下載失敗時才用AI生成替代內(nèi)容。
經(jīng)過這四步流程,一臺虛擬電腦就誕生了。平均來看,每臺虛擬電腦在模擬開始前包含約112個文件,目錄層級約五層深,文件類型以Word文檔(34.8%)、Excel表格(15.8%)、PDF(13.9%)和Python代碼(8.5%)為主,還有少量演示文稿和圖片。這些數(shù)字不是隨機(jī)填充,而是每個文件都有實際內(nèi)容、合理的文件大小和與人物檔案相符的命名風(fēng)格。
三、給AI布置"一個月的工作任務(wù)"
電腦建好了,接下來要讓AI在上面真正工作。
研究團(tuán)隊設(shè)計了一個由兩個"智能體"(也就是兩個各司其職的AI模塊)組成的模擬系統(tǒng)。第一個叫做"設(shè)置智能體",它的職責(zé)是根據(jù)這臺電腦的具體內(nèi)容和用戶檔案,生成一套切實可行的工作目標(biāo)。這些目標(biāo)必須與電腦主人的實際情況高度吻合,而不是憑空捏造的通用任務(wù)。
以那位財務(wù)顧問瑪格麗特為例,設(shè)置智能體為她設(shè)定了五項跨越20個工作日的主要交付物。第一項是根據(jù)先鋒集團(tuán)最新發(fā)布的資本市場模型數(shù)據(jù),刷新公司三種投資組合(保守型、平衡型、成長型)的配置方案,并撰寫2026年資本市場展望報告,提交投資委員會審議。第二項是完成一位名叫羅伯特·卡斯特利亞諾的高凈值新客戶的入職工作包,該客戶有720萬美元的可投資資產(chǎn),正處于退休規(guī)劃階段。第三項是在同事桑德拉完成同行評審后,最終確定一套量化再平衡觸發(fā)框架。第四項是將一份替代性投資研究報告升級為可以提交投資委員會表決的最終建議。第五項是完成一份ESG股票覆蓋層的合規(guī)建議,并獲得合規(guī)官員的簽署認(rèn)可。
這五項任務(wù)相互關(guān)聯(lián),比如客戶的配置方案需要引用刷新后的投資組合模型數(shù)據(jù),這個依賴關(guān)系反映了真實工作中項目之間的串聯(lián)邏輯。
設(shè)置智能體還會為瑪格麗特創(chuàng)造一批"虛擬同事"。每位同事都有具體的背景、溝通風(fēng)格,以及在工作中的特定作用。她的直屬上司大衛(wèi)·哈特利是一位數(shù)字優(yōu)先的風(fēng)格、對冗長敘述沒有耐心的董事總經(jīng)理,會發(fā)郵件標(biāo)題為"VCMM刷新——3件事"這樣簡短的信息,要求下屬在48小時內(nèi)回復(fù),且偏愛用要點列出問題。同事桑德拉是固定收益專家,審查態(tài)度嚴(yán)格,不會在沒有親自復(fù)核數(shù)據(jù)之前簽字確認(rèn),而且偏好有實際公式而非僅顯示結(jié)果的Excel附件。客戶卡斯特利亞諾是退休的科技高管,會仔細(xì)閱讀投資政策說明書的每一行并提出技術(shù)性問題。合規(guī)官員詹姆斯·惠特菲爾德是前證監(jiān)會審查員,要求一切記錄在案。更有趣的是,初級助理凱文會故意在數(shù)據(jù)中埋入錯誤——比如將費率從百分比誤寫成基點,或者缺少數(shù)據(jù)截止日期——測試瑪格麗特能否發(fā)現(xiàn)并糾正這些問題。
每位虛擬同事還持有"私密參考文件",只有在協(xié)作互動中才會分享給工作智能體。比如大衛(wèi)·哈特利持有一份投資委員會評審清單,桑德拉持有她2025年同行評審的具體問題記錄,客戶卡斯特利亞諾持有含有1.7%數(shù)據(jù)差異的年末賬戶報表——這些都是瑪格麗特必須通過主動溝通才能獲取的關(guān)鍵信息。
四、AI如何每天"上班":周計劃與日常執(zhí)行的細(xì)節(jié)
第二個智能體叫做"工作智能體",它將扮演瑪格麗特的角色,在這臺虛擬電腦上實際工作整整一個月。
每周初,工作智能體會根據(jù)整體目標(biāo)、剩余工作量、當(dāng)前電腦狀態(tài)和預(yù)期的協(xié)作需求,制定一份本周工作計劃。這份計劃會把一周拆分成具體的每日活動,明確每天要創(chuàng)建或修改哪些文件、需要參考哪些已有資料、要聯(lián)系哪些同事。比如第一周的計劃會安排周一發(fā)郵件給先鋒顧問服務(wù)部門的帕特里夏·黃,請她提供2026年的資本市場模型數(shù)據(jù);安排周二閱讀客戶卡斯特利亞諾的參考文件,為周三的深度發(fā)現(xiàn)電話做準(zhǔn)備;安排周三舉行投資委員會簡短協(xié)調(diào)會,確認(rèn)1月28日議程;安排周四構(gòu)建一份對比2026年與2025年預(yù)測數(shù)據(jù)差異的五標(biāo)簽Excel分析工作簿;安排周五起草一份向大衛(wèi)·哈特利匯報的備忘錄,附上第一周的主要發(fā)現(xiàn),并附帶三個需要他做方向性決策的問題。
然后,每個工作日作為一個獨立的智能體會話來執(zhí)行。每天開始時,工作智能體會重新讀取活動日志,檢查當(dāng)前電腦狀態(tài),以及查閱虛擬同事在過去幾天里回復(fù)的任何新消息或共享的文件。接著按照計劃推進(jìn)當(dāng)天的工作:閱讀相關(guān)現(xiàn)有文件,創(chuàng)建或修改所需的輸出文件,向虛擬同事發(fā)送消息或共享文件。每天結(jié)束時,系統(tǒng)記錄新增文件、修改的內(nèi)容、協(xié)作往來和活動歷史,以便下一個日常會話從更新后的電腦狀態(tài)繼續(xù)推進(jìn)。
模擬日志中有一段對1月7日(周三)的記錄,展示了工作智能體當(dāng)天完成的主要事項:上午11點召開了一次45分鐘的投資委員會協(xié)調(diào)會,確認(rèn)了1月28日的議程,明確了再平衡框架第三版的開發(fā)范圍(包含四個需要解決的技術(shù)問題),討論了客戶卡斯特利亞諾的時間表,以及ESG合規(guī)框架的參與安排。下午2點進(jìn)行了與卡斯特利亞諾的60分鐘深度發(fā)現(xiàn)電話,核實了他在施瓦布、先鋒等四個賬戶的總資產(chǎn)結(jié)構(gòu),發(fā)現(xiàn)并記錄了施瓦布賬戶中的國際配置差異(賬戶匯總顯示18%,但逐項核算只有16.3%),確認(rèn)了他在亞斯本購置第二套房產(chǎn)的流動性需求,討論了思科股票的集中持倉處置方案和羅斯轉(zhuǎn)換的稅務(wù)時機(jī),記錄了他妻子伊蓮的風(fēng)險偏好(更保守,拒絕非流動性投資)。下午5點則是整理桑德拉發(fā)來的第四版同行評審文件,針對四個待解決問題逐一制定解決方案,并規(guī)劃第二周的原型交付時間表。
這個周計劃與日常執(zhí)行的循環(huán)持續(xù)四周,直到模擬期結(jié)束。整個過程中,虛擬電腦被工作智能體的工作不斷改變:新文件被添加,已有文件被修訂,協(xié)作往來被記錄,文件依賴圖隨著新產(chǎn)出而更新。
五、實驗跑完之后,數(shù)字說明了什么
一千次模擬完成之后,研究團(tuán)隊統(tǒng)計了大量數(shù)字,這些數(shù)字共同描繪出這套方法的規(guī)模和深度。
從工作量來看,每次模擬平均需要工作智能體執(zhí)行2272次操作步驟,耗費約8.59小時實際運行時間,其中絕大部分時間消耗在日常執(zhí)行環(huán)節(jié),而非周計劃制定。每臺虛擬電腦在模擬結(jié)束后平均包含約197個文件,比模擬開始前增加了約85個,而目錄層級基本保持穩(wěn)定——這說明工作智能體主要是在已有框架內(nèi)創(chuàng)建和修改文件,而不是隨意建立新目錄。
從協(xié)作來看,每次模擬平均涉及5.5位虛擬同事,整個模擬期間共交換約31次通訊往來。這些數(shù)字說明模擬的確不是孤立完成任務(wù),而是需要持續(xù)的規(guī)劃、執(zhí)行和反復(fù)的協(xié)調(diào)。
從產(chǎn)出文件的質(zhì)量來看,生成的文件并不是敷衍了事的占位符。演示文稿的平均文件大小超過500KB,PDF平均超過80KB。這些文件尺寸說明它們有真實的內(nèi)容,而非空殼。
研究團(tuán)隊還對100臺虛擬電腦的最終交付成果進(jìn)行了評分。評分方法是:針對每臺電腦運行同一套模擬五次,每次由評審模塊根據(jù)實際產(chǎn)出內(nèi)容起草一份評分細(xì)則,再將五份草稿合并成一份更全面的最終評分細(xì)則。這樣做是為了避免評分標(biāo)準(zhǔn)只反映某一次運行的特定解題路徑,而是盡可能覆蓋這類任務(wù)的全部合理要求。評分細(xì)則涵蓋規(guī)范符合度、與虛擬同事互動中提出的要求、領(lǐng)域?qū)I(yè)性和工作質(zhì)量四個維度,每個方面都有具體的評分點和分值。
最終得分分布大致集中在60%到80%之間。以那位財務(wù)顧問的案例為例,總分846分中得到了605分,折合71.5%,其中客戶入職工作包得了88.2%的高分,而ESG覆蓋層建議只得了54.8%。
六、從模擬經(jīng)歷中提煉"工作經(jīng)驗",然后用經(jīng)驗幫助AI進(jìn)步
得到模擬軌跡之后,研究團(tuán)隊進(jìn)行了一個關(guān)鍵步驟:從軌跡中提煉可復(fù)用的"經(jīng)驗"。
他們將900臺虛擬電腦的模擬分析報告拆解成一條條"經(jīng)驗條目",包括有用的工作模式、常見教訓(xùn)和典型失敗原因。然后,這些條目按照電腦主人的職業(yè)類型分組,同一職業(yè)群體內(nèi)的條目會被合并歸類,并統(tǒng)計每類問題出現(xiàn)的頻次。頻次越高,說明這是這類職業(yè)工作中越普遍的問題。
接著,按頻次排序的經(jīng)驗條目被交給一個"技能創(chuàng)建器",它會為每個職業(yè)群體寫出一份結(jié)構(gòu)化的工作技能文檔。以金融與投資分析師這個職業(yè)群體為例,生成的技能文檔包含四個主要模塊。第一個模塊關(guān)于數(shù)據(jù)完整性與單一真相來源,核心規(guī)則包括:所有文件共享的數(shù)字必須來自同一個權(quán)威來源(Excel模型或數(shù)據(jù)注冊表),備忘錄、演示文稿和PDF只是"只讀消費者",在起草任何引用某個數(shù)字的段落前都應(yīng)重新打開源模型,因為"我知道加權(quán)平均資本成本是9.2%"和"粘貼了實際鏈接值"之間的差距,正是過時數(shù)據(jù)得以存活的地方。此外,對于同一指標(biāo)的季度數(shù)字和年度數(shù)字不可互換,即使數(shù)值接近也不行。還需要注意:如果某位合作方提供的預(yù)測數(shù)字是收入還是EBITDA必須明確確認(rèn),并展示完整推導(dǎo)鏈,把兩者混淆會導(dǎo)致估值相差5到10倍。
第二個模塊關(guān)于模型構(gòu)建和驗證,強(qiáng)調(diào)要在敏感性分析表中核實邏輯方向(更不利的情景應(yīng)產(chǎn)生更差的結(jié)果),要明確區(qū)分毛回報率和凈回報率并同時呈現(xiàn),要構(gòu)建數(shù)學(xué)上封閉的估值體系(所有輸入值應(yīng)能機(jī)械地復(fù)現(xiàn)輸出結(jié)果,審查者無需任何未披露的橋接調(diào)整)。
第三個模塊關(guān)于文檔層級和工作流程把關(guān),規(guī)定版本號一旦分享出去就成為該審閱周期的正式記錄,修訂應(yīng)產(chǎn)生新版本號而非重用舊版本號,并要求在起草過程中使用可搜索的標(biāo)記(如"[待核實]")而非用貌似合理但實際有誤的數(shù)字占位。
第四個模塊關(guān)于監(jiān)管、合規(guī)和認(rèn)證標(biāo)準(zhǔn),指出展示毛業(yè)績的文件必須同等突出展示費后凈業(yè)績——這是證監(jiān)會相關(guān)規(guī)則的強(qiáng)制要求,不是風(fēng)格選擇,適用范圍涵蓋募資材料、季度報告和投資者信函。
這些技能文檔隨后被加載給工作智能體,測試它在面對100臺此前未見過的全新虛擬電腦時,能否比沒有這些技能的基準(zhǔn)版本表現(xiàn)更好。結(jié)果相當(dāng)明確:平均評分從61.6%提升到了68.6%,提升了7個百分點。在逐臺比較中,帶技能的版本在100臺電腦中贏了83臺。
研究團(tuán)隊還測試了訓(xùn)練規(guī)模的影響:用10臺電腦的經(jīng)驗生成技能時,帶技能的版本和基準(zhǔn)版本幾乎打平(48%對52%,帶技能版本略輸);用100臺電腦的經(jīng)驗時,勝率升至64%;用500臺時達(dá)到75%;用900臺時達(dá)到83%。這個趨勢說明,訓(xùn)練樣本越多,技能覆蓋的職業(yè)越廣,頻次統(tǒng)計也越可靠,提煉出的經(jīng)驗質(zhì)量自然越高。
七、超出"自家考場"的測試:用外部基準(zhǔn)驗證
一項研究方法好不好,光在自己設(shè)計的情境里跑高分是不夠的,還需要放到完全不同的場景中驗證。
研究團(tuán)隊選取了一個公開的生產(chǎn)力任務(wù)基準(zhǔn)測試集,包含220個真實的辦公工作任務(wù)。這個基準(zhǔn)測試集與研究團(tuán)隊的虛擬電腦模擬有著非常顯著的區(qū)別:基準(zhǔn)測試任務(wù)平均只有1.18個參考文件,沒有任何額外的"電腦背景文件"可以瀏覽,平均只需要31步操作和17分鐘就能完成;而團(tuán)隊的虛擬電腦模擬平均有13.8個參考文件加上112個背景文件,需要2272步操作和8.59小時。兩者之間的規(guī)模差距,大約相當(dāng)于騎自行車走社區(qū)和開長途卡車跨省運貨的區(qū)別。
測試方式是:對每個基準(zhǔn)任務(wù),同時運行帶技能版本和不帶技能的基準(zhǔn)版本,然后讓一個評審模塊(使用更強(qiáng)的Claude Opus模型)根據(jù)任務(wù)自帶的評分標(biāo)準(zhǔn)選出哪個版本的輸出更好。
結(jié)果是:在以Claude Sonnet為底層模型的主要測試中,帶技能版本贏了105個任務(wù),輸了67個,打平48個,單側(cè)檢驗的p值為0.002,雙側(cè)檢驗為0.005——按學(xué)術(shù)慣例,p值小于0.01就意味著這個差異極不可能是隨機(jī)偶然造成的。也就是說,從處理數(shù)千步長工作中提煉出的經(jīng)驗,對僅需幾十步的短任務(wù)也有明顯幫助。
在使用較弱的Claude Haiku模型時,同樣的技能帶來了104勝80負(fù)的成績,達(dá)到顯著性邊界;在使用更強(qiáng)的Claude Opus模型時,得到99勝71負(fù)的結(jié)果,也具有統(tǒng)計顯著性。Opus本身已經(jīng)很強(qiáng),許多在Sonnet上出現(xiàn)的錯誤它能自行避免,所以技能帶來的邊際增益相對小一些;而Haiku指令遵循能力較弱,技能文檔對它的幫助稍打折扣。
八、這套方法指向一個怎樣的未來
把以上所有環(huán)節(jié)串聯(lián)起來,研究團(tuán)隊描繪了一個令人感興趣的自我迭代循環(huán)。
第一步,從大規(guī)模人物簡介出發(fā),生成多樣化的虛擬電腦,覆蓋不同職業(yè)、不同工作風(fēng)格、不同文件組織習(xí)慣。第二步,在每臺虛擬電腦上運行長周期模擬,讓工作智能體在真實感更強(qiáng)的環(huán)境中積累大量操作軌跡。第三步,從這些軌跡中提煉經(jīng)驗,識別成功模式和失敗原因。第四步,把提煉出的經(jīng)驗轉(zhuǎn)化為職業(yè)專屬技能文檔,讓工作智能體攜帶這些技能去處理新的任務(wù),表現(xiàn)更好。第五步,當(dāng)技能文檔積累到一定規(guī)模,可以將其中的知識蒸餾進(jìn)模型權(quán)重,讓有益的行為模式真正內(nèi)化,而不需要每次都靠外掛技能文檔提示。第六步,技能庫清空,用能力更強(qiáng)的新模型開啟下一輪模擬,生成質(zhì)量更高的軌跡,提煉更精準(zhǔn)的經(jīng)驗。如此循環(huán)。
這個循環(huán)在三個維度上都具有向上的擴(kuò)展動力。模擬數(shù)量增加意味著環(huán)境更豐富:同一臺虛擬電腦在一次模擬結(jié)束后,更新后的狀態(tài)可以作為下一次模擬的起點,隨著反復(fù)模擬,每臺電腦的工作歷史越來越具體,越來越有"個人特色"。模型能力增強(qiáng)意味著模擬質(zhì)量提升:更強(qiáng)的AI能創(chuàng)作出內(nèi)容更充實的文件,規(guī)劃更連貫的工作流程,與虛擬同事協(xié)作時的表達(dá)也更自然。更強(qiáng)的分析模型還能從軌跡中挖掘出更細(xì)膩的經(jīng)驗:發(fā)現(xiàn)更隱蔽的失敗模式,把有用的工作習(xí)慣總結(jié)得更精確。
研究團(tuán)隊指出,由于人物簡介可以在極大規(guī)模上生成和采樣,這套方法在原則上可以擴(kuò)展到數(shù)百萬乃至數(shù)十億臺虛擬電腦,覆蓋幾乎所有可以想象的職業(yè)類型、工作場景和生產(chǎn)力需求,只要有足夠的計算資源。
研究團(tuán)隊也坦率地指出了當(dāng)前方法的不足之處。目前生成的文件內(nèi)容已經(jīng)能根據(jù)用戶職業(yè)做到相當(dāng)程度的定制,但視覺風(fēng)格和排版格式在不同電腦之間仍然過于統(tǒng)一,未能反映不同組織或個人的設(shè)計偏好差異。真實的電腦還會有很多"生活痕跡":臨時下載的文件、多次修改卻沒有統(tǒng)一歸檔的草稿、截圖、已經(jīng)過期的舊資料,以及和主要項目完全無關(guān)的雜文件。當(dāng)前的虛擬電腦比真實電腦整潔太多,這可能導(dǎo)致模擬與現(xiàn)實之間存在差距。另外,當(dāng)前的虛擬同事大多處于被動響應(yīng)狀態(tài),而現(xiàn)實中的同事有自己的工作節(jié)奏、私人議程、臨時變化和情緒起伏,讓協(xié)作更接近真實的多智能體組織環(huán)境,是下一階段需要解決的挑戰(zhàn)。
歸根結(jié)底,這項研究做的事情可以用一句話概括:與其讓AI在空白紙上學(xué)做作業(yè),不如給它一間真實的辦公室,讓它在里面真實地工作,然后從這段經(jīng)歷中學(xué)習(xí)。這個思路看起來樸素,但它所要求的工程復(fù)雜度和計算投入都相當(dāng)可觀,而研究團(tuán)隊的實驗證明這個方向是有效的。至于這套方法最終能把AI的專業(yè)工作能力帶到什么高度,還需要時間和更多實驗來回答。有興趣深入了解的讀者可以通過arXiv編號2604.28181查閱完整技術(shù)報告,也可以訪問研究團(tuán)隊在HuggingFace上發(fā)布的開源數(shù)據(jù)集,直接查看100臺公開虛擬電腦及500份模擬分析報告。
Q&A
Q1:合成電腦方法與傳統(tǒng)AI訓(xùn)練數(shù)據(jù)有什么本質(zhì)區(qū)別?
A:傳統(tǒng)合成數(shù)據(jù)通常直接生成"任務(wù)描述+參考答案",就像給AI出一道含所有已知條件的數(shù)學(xué)題。合成電腦方法則先構(gòu)建完整的用戶工作環(huán)境,包括文件夾結(jié)構(gòu)、歷史文檔和跨文件依賴關(guān)系,再在這個環(huán)境中生成任務(wù)。這意味著AI必須像真實用戶一樣主動翻閱文件、整合歷史信息,而不是在一個信息已經(jīng)"備好"的情境中解題,訓(xùn)練出的能力更接近真實辦公場景中所需的工作方式。
Q2:合成電腦模擬產(chǎn)生的技能文檔如何幫助AI提升表現(xiàn)?
A:模擬結(jié)束后,系統(tǒng)分析AI在執(zhí)行任務(wù)時的失敗模式和成功經(jīng)驗,按職業(yè)類型歸類并統(tǒng)計頻次,再把最常見的教訓(xùn)寫成結(jié)構(gòu)化的職業(yè)專屬技能文檔。這些文檔會明確告知AI哪些錯誤最容易犯、哪些工作步驟最關(guān)鍵,比如"在任何多文檔交付物打包前,必須創(chuàng)建一張數(shù)字一致性核對矩陣"。AI攜帶這些文檔處理新任務(wù)時,相當(dāng)于有了一份針對該職業(yè)的"經(jīng)驗提示卡",實測可將評分從61.6%提升至68.6%。
Q3:為什么用900臺電腦訓(xùn)練出的技能比用10臺的效果好那么多?
A:用10臺電腦生成技能時,覆蓋的職業(yè)類型太少,很多測試場景找不到對口的技能,AI只能使用相關(guān)性較弱的技能,有時反而幫倒忙。隨著訓(xùn)練規(guī)模增加,一方面職業(yè)覆蓋更廣(每個測試場景都能找到適配技能),另一方面頻次統(tǒng)計更可靠(出現(xiàn)次數(shù)越多的問題越能被正確識別為普遍性而非偶發(fā)性),技能內(nèi)容的針對性因此大幅提升。10臺、100臺、500臺和900臺對應(yīng)的勝率分別約為48%、64%、75%和83%,顯示出清晰的規(guī)模效應(yīng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.