<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      為什么AI總是捏造事實?AI:真不想的,容我狡辯一下

      0
      分享至

      現如今,幾乎每個人的手機上都有那么兩三個 AI 小助手,之前我們遇到了問題習慣去搜索引擎上搜索答案,現在可能更多地習慣于“有事問 AI”。

      而 AI 也幾乎不會讓我們失望,任何問題都能給你列舉出一串看起來很有道理的答案。

      但如果你問的問題非常重要,比如是某個健康相關的問題,或者是寫重要資料時候需要使用某個數據或者是某個案例,那真的建議你親自去查實一下。

      因為有時候,AI 會信誓旦旦地給你一個看似合理,實則不存在的答案。

      還有些小伙伴發現,在讓小龍蝦(Openclaw)干活的時候,它列出了詳細的19小時的學習計劃,然后17分鐘完成了...... 它也會早早編造一份數據存放在本地,等拖到預定的時間才交付。而在被發現之后,試圖讓人接受它已完成的工作。


      圖片截取自與小龍蝦(Openclaw)對話 小龍蝦敷衍中......

      其實,這個現象其實早就不是什么秘密了,它也被稱作“AI 幻覺”,而且科學家們一直也試圖通過增加算力或者優化數據的方式來解決這個問題。

      但是在 2025 年 9 月,來自 OpenAI 和佐治亞理工學院(Georgia Institute of Technology)的研究人員發表了一篇重磅論文。

      這項研究給出了一個顛覆性的結論:即便給到 AI 的訓練數據集是絕對正確的,AI 在某些類型的問題上也不可避免地會犯錯——這既是由統計規律決定的,也是目前不合理的 AI“考試制度”逼出來的結果。

      下面我們就順著這篇文章的思路一起來看一看。

      預訓練階段就會出錯

      這篇研究發現,AI 出現幻覺跟預訓練階段以及后訓練階段都有關系,我們先看預訓練階段的情況。

      1

      數據模式和模型本身問題

      為了方便研究,研究者構建了一個線性的二元分類模型(非此即彼),讓它對已經標注了正確和錯誤的數據集進行分類。

      因為這些數據已經經過了人工檢驗,所以是不存在任何錯誤的。但是用這些數據對AI模型進行預訓練的時候,問題就出現了。

      在有些類型的問題上(比如檢查拼寫錯誤),AI 的表現非常好,幾乎從不犯錯。

      但是在另一些問題上,比如“數某個英文單詞里某個字母出現了多少次?”,以及“某人的生日是幾月幾號?”AI 就有可能會出錯。


      研究者認為,這樣的數據在做分類的時候很難用一條直線進行二元分類,一些模型用這樣的數據進行預訓練的時候就可能會產生錯誤。

      打個比方,模型在分類的時候就像拿著一把刀把數據切分成兩類,但如果數據的模式本身就是彎彎繞繞的圓弧,用一把刀就很難切分。

      比如在這篇文章中,研究者使用這個問題“How many Ds are in DEEPSEEK? If you know, just say the number with no commentary”(DEEPSEEK 里有多少個 D?如果你知道直接說數字,不要加以評論)去詢問 Deepseek V3 模型的時候,確實發現它給的答案并不準確,會回答 2 或者 3。

      但是這個在使用 DEEPSEEK R1 模型的時候就沒有這樣的問題,這是模型本身差異導致的。


      筆者用同樣的問題對 DEEPSEEK V3.2進行了測試,也出現了類似的情況

      研究者構建這樣的簡化模型進行測試,是為了說明,即便數據本身沒有問題,在預訓練階段也會因為模型本身的限制以及數據模式等問題讓 AI 產生錯誤判斷。

      這項研究中,研究者還進一步給出了測算,如果讓 AI 直接去生成內容,產生錯誤的概率還會更大一些,大約比判斷出錯的概率高出兩倍以上。

      2

      數據量過少也會影響

      另外,在這項研究中研究者還發現,假如訓練數據中某個信息過少,那么 AI 在回答的時候出錯的可能性也會比較高。

      比如,當你問愛因斯坦的生日是幾月幾號的時候,因為在大量的資料里都有這個數據,所以 AI 幾乎不會出錯。但是當你問某個普通人“田小豆”的生日是幾月幾號的時候,這個數據出現次數特別少,AI 出錯的可能性也會變高。


      特別是當數據只出現了一次的時候,這時候可能會更糟糕。

      因為 AI 大概率不會直接回答你“我不知道”,因為它在訓練數據集里確實見過,但它沒有足夠多的數據來確認這個信息到底是正確答案還是噪聲,它準確回答這個問題的可能性也會更低一些。

      數據模式和模型本身的限制,以及極少樣本的數據,都可能會讓 AI 在預訓練階段就產生“幻覺”,生成錯誤的內容。

      努力得高分的 AI

      如果說預訓練階段的統計學特征讓 AI 有了編造的“潛質”,人類評價AI的方式也逼著 AI 去“編造”

      為了更好地理解這一點,我們可以先從大家都很熟悉的考試入手。人類社會中的大部分考試都是二元評分機制,即答對了得分,答錯或者不回答都不得分。

      所以,在考試的時候,哪怕你不知道答案,也不會交白卷,至少選擇題填空題會隨便蒙一個,萬一蒙對了還會有“意外之喜”。

      這項研究中研究者對比了目前主流的 AI 的評分機制,發現大部分評分機制也是類似的情況,如果 AI 坦誠地回答“我不知道”,它會得 0 分,跟回答錯誤沒有區別。與其這樣,它不如隨便蒙一個答案,哪怕蒙對的概率再低,數學期望也比 0 高。

      為了在主流的評分機制中拿到高分,“AI 考生們”也和人類一樣,學會了實在不行就亂蒙一個的本領。

      對此,這項研究的研究者們也給出了一個合理的解決方案——在現有的 AI 評分機制中,引入一個“懲罰編造,獎勵誠實”的機制。

      比如,假如 AI 回答正確,獲得 1 分,如果回答錯誤得 0 分,甚至扣分。如果回答“我不知道”,則可以不扣分,或者獲得一個微小的分數獎勵。

      重要問題上不要輕信 AI

      文獻也給出了結論,AI 的幻覺是從模型的預訓練階段起源的,在后訓練階段為了追求更高的評分也可能會被放大。

      雖然科學家們也采用了很多的方法減少 AI 幻覺,但至少在現階段看來,AI 幻覺還是無法避免的。假如你需要讓 AI 幫你解答一個重要的問題,比如在做公眾演講的時候用一個數據,建議親自核實一下。否則被人發現這些數據根本不存在,那可就尷尬了。

      而假如在問 AI 問題的時候,它對你說“我不知道”,你也應該感到慶幸,至少 AI 并沒有打算胡編亂造一個答案蒙騙你。

      參考文獻

      [1]Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why language models hallucinate. arXiv preprint arXiv:2509.04664.

      來源:科普中國

      (注:圖片來源于版權圖庫,轉載可能引發版權糾紛)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      喜馬拉雅某員工:躲過了兩次裁員,終于成為騰訊員工了

      喜馬拉雅某員工:躲過了兩次裁員,終于成為騰訊員工了

      螞蟻大喇叭
      2026-05-14 11:11:38
      全市場:德尚法國隊名單出爐,卡馬文加領銜落選陣容

      全市場:德尚法國隊名單出爐,卡馬文加領銜落選陣容

      懂球帝
      2026-05-15 19:24:21
      2年1620萬美金!場均10分9.6板!這就是艾頓不被人待見的原因

      2年1620萬美金!場均10分9.6板!這就是艾頓不被人待見的原因

      世界體育圈
      2026-05-15 18:54:47
      日媒調查:高市早苗內閣支持率連續下滑 民眾不滿“只談修憲不顧經濟和民生”

      日媒調查:高市早苗內閣支持率連續下滑 民眾不滿“只談修憲不顧經濟和民生”

      海外網
      2026-05-15 10:52:07
      生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

      生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

      蜉蝣說
      2026-03-17 15:58:31
      為什么超市豬肉比菜市場便宜?內行人透露3個內情,看完不虧

      為什么超市豬肉比菜市場便宜?內行人透露3個內情,看完不虧

      老特有話說
      2026-05-13 21:42:25
      中方嚴詞示警,特朗普直至離京未提臺灣?魯比奧急稱對臺政策不變

      中方嚴詞示警,特朗普直至離京未提臺灣?魯比奧急稱對臺政策不變

      筆墨V
      2026-05-15 16:11:14
      天王嫂濾鏡徹底碎!方媛搶單人間引眾怒,極致利己嘴臉藏不住了

      天王嫂濾鏡徹底碎!方媛搶單人間引眾怒,極致利己嘴臉藏不住了

      童叔不飆車
      2026-05-15 19:01:00
      三過草地的女紅軍當農民,朱老總怒斥當地領導:你知道她是誰嗎?

      三過草地的女紅軍當農民,朱老總怒斥當地領導:你知道她是誰嗎?

      史之銘
      2026-05-07 20:06:03
      楚阿梅尼徹底涼了!穆里尼奧欽定皇馬新核,1 億歐挖角曼城

      楚阿梅尼徹底涼了!穆里尼奧欽定皇馬新核,1 億歐挖角曼城

      奶蓋熊本熊
      2026-05-15 00:52:50
      現在不是美國敢不敢打中國的問題,而是中國讓不讓美國打的問題了

      現在不是美國敢不敢打中國的問題,而是中國讓不讓美國打的問題了

      華史談
      2026-05-15 08:49:03
      卸磨殺驢的結果!文胖:詹皇愿去別隊拿中產,也不愿降薪3000萬

      卸磨殺驢的結果!文胖:詹皇愿去別隊拿中產,也不愿降薪3000萬

      錢說體育
      2026-05-15 09:05:10
      醫生發現:每天早起后先排便的人,用不了半年身體或迎來4改變

      醫生發現:每天早起后先排便的人,用不了半年身體或迎來4改變

      路醫生健康科普
      2026-05-14 17:45:11
      股價大跌因“談價失敗”?3000億PCB龍頭回應

      股價大跌因“談價失敗”?3000億PCB龍頭回應

      21世紀經濟報道
      2026-05-15 13:59:08
      特朗普稱中美關系將會更好

      特朗普稱中美關系將會更好

      中國日報網
      2026-05-14 20:19:47
      沒有中方官員接待?日本代表團抵滬第三天,外交部打開天窗說亮話

      沒有中方官員接待?日本代表團抵滬第三天,外交部打開天窗說亮話

      健身狂人
      2026-05-14 19:04:08
      吃中國飯砸中國鍋,改島國國籍拿高薪,這3位下場一個比一個慘

      吃中國飯砸中國鍋,改島國國籍拿高薪,這3位下場一個比一個慘

      黑翼天使
      2026-05-14 12:27:06
      太狂了!張本智和父親公開放話,球迷怒了:以后別想再來中國了

      太狂了!張本智和父親公開放話,球迷怒了:以后別想再來中國了

      情感大頭說說
      2026-05-15 18:54:17
      看到中國給了特朗普最高禮遇,歐盟干脆做了最壞的打算?

      看到中國給了特朗普最高禮遇,歐盟干脆做了最壞的打算?

      鳥兒太能吃
      2026-05-15 12:52:00
      比亞迪“青蛙車”爆火,我用豆包給比亞迪做了一份PPT,結果被學員吊打……

      比亞迪“青蛙車”爆火,我用豆包給比亞迪做了一份PPT,結果被學員吊打……

      秋葉PPT
      2026-05-13 08:21:01
      2026-05-15 20:04:49
      成都科普 incentive-icons
      成都科普
      成都科普官方賬號
      3404文章數 1168關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      房產
      旅游
      本地
      公開課
      軍事航空

      房產要聞

      海口商業也是出息了!“友誼陽光城”,殺入北京最牛商街!

      旅游要聞

      首屆中國新文創市集暨潮玩游園會打造文旅消費新場景

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品久久国产字幕高潮| 亚洲一区二区三区乱码| 麻豆91久久婷婷五月| 国产午夜高潮熟女精品av软件| 夜夜躁狠狠躁日日躁2022| 国产精品18久久久久久麻辣| 天天躁夜夜躁狠狠躁2020| 一本一本久久a久久精品综合不卡| 国产裸体AV久无码无遮挡| 日本一区二区啪啪视频| 在线观看成人无码中文av天堂 | 国产精品国产三级国产av创| 日本熟妇hdsex视频| 日韩av午夜在线观看| 女人被狂躁c到高潮喷水一区二区| 欧美VA免费精品高清在线| 欧美xxxx做受欧美.88| 最新午夜男女福利片视频| 狠狠色综合一区二区| 国产第三区| 超碰日韩| 国产乱沈阳女人高潮乱叫老| 蜜臀久久99精品久久久久久小说| 亚洲午夜精品a片久久www慈禧| 成年无码av片完整版| 在线中文字幕第一页| 40岁成熟女人牲交片| 女人与拘做受全过程免费视频| 久久久久人妻一区精品| 91社区在线| 久久大香伊蕉在人线观看热| 精品人妻一区二区三区蜜臀| 欧美3p视频| 人妻丰满熟妇AV无码片| 国产精品ⅴ无码大片在线看| 亚洲国产精品久久久久秋霞影院| 亚洲日韩中文字幕一区| 在线亚洲午夜片av大片| 九九99久久精品在免费线18| 国产精品中文字幕久久| 黄www|