<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      為什么AI總是捏造事實?AI:真不想的,容我狡辯一下

      0
      分享至

      現如今,幾乎每個人的手機上都有那么兩三個 AI 小助手,之前我們遇到了問題習慣去搜索引擎上搜索答案,現在可能更多地習慣于“有事問 AI”。

      而 AI 也幾乎不會讓我們失望,任何問題都能給你列舉出一串看起來很有道理的答案。

      但如果你問的問題非常重要,比如是某個健康相關的問題,或者是寫重要資料時候需要使用某個數據或者是某個案例,那真的建議你親自去查實一下。

      因為有時候,AI 會信誓旦旦地給你一個看似合理,實則不存在的答案。

      還有些小伙伴發現,在讓小龍蝦(Openclaw)干活的時候,它列出了詳細的19小時的學習計劃,然后17分鐘完成了......它也會早早編造一份數據存放在本地,等拖到預定的時間才交付。而在被發現之后,試圖讓人接受它已完成的工作。


      圖片截取自與小龍蝦(Openclaw)對話 小龍蝦敷衍中......

      其實,這個現象其實早就不是什么秘密了,它也被稱作“AI 幻覺”,而且科學家們一直也試圖通過增加算力或者優化數據的方式來解決這個問題。

      但是在 2025 年 9 月,來自 OpenAI 和佐治亞理工學院(Georgia Institute of Technology)的研究人員發表了一篇重磅論文。

      這項研究給出了一個顛覆性的結論:即便給到 AI 的訓練數據集是絕對正確的,AI 在某些類型的問題上也不可避免地會犯錯——這既是由統計規律決定的,也是目前不合理的 AI“考試制度”逼出來的結果。

      下面我們就順著這篇文章的思路一起來看一看。

      預訓練階段就會出錯

      這篇研究發現,AI 出現幻覺跟預訓練階段以及后訓練階段都有關系,我們先看預訓練階段的情況。

      1.數據模式和模型本身問題

      為了方便研究,研究者構建了一個線性的二元分類模型(非此即彼),讓它對已經標注了正確和錯誤的數據集進行分類。

      因為這些數據已經經過了人工檢驗,所以是不存在任何錯誤的。但是用這些數據對AI模型進行預訓練的時候,問題就出現了。

      在有些類型的問題上(比如檢查拼寫錯誤),AI 的表現非常好,幾乎從不犯錯。

      但是在另一些問題上,比如“數某個英文單詞里某個字母出現了多少次?”,以及“某人的生日是幾月幾號?”AI 就有可能會出錯。


      圖庫版權圖片,轉載使用可能引發版權糾紛

      研究者認為,這樣的數據在做分類的時候很難用一條直線進行二元分類,一些模型用這樣的數據進行預訓練的時候就可能會產生錯誤。

      打個比方,模型在分類的時候就像拿著一把刀把數據切分成兩類,但如果數據的模式本身就是彎彎繞繞的圓弧,用一把刀就很難切分。

      比如在這篇文章中,研究者使用這個問題“How many Ds are in DEEPSEEK? If you know, just say the number with no commentary”(DEEPSEEK 里有多少個 D?如果你知道直接說數字,不要加以評論)去詢問 Deepseek V3 模型的時候,確實發現它給的答案并不準確,會回答 2 或者 3。

      但是這個在使用 DEEPSEEK R1 模型的時候就沒有這樣的問題,這是模型本身差異導致的。


      筆者用同樣的問題對 DEEPSEEK V3.2進行了測試,也出現了類似的情

      研究者構建這樣的簡化模型進行測試,是為了說明,即便數據本身沒有問題,在預訓練階段也會因為模型本身的限制以及數據模式等問題讓 AI 產生錯誤判斷。

      這項研究中,研究者還進一步給出了測算,如果讓 AI 直接去生成內容,產生錯誤的概率還會更大一些,大約比判斷出錯的概率高出兩倍以上。

      2.數據量過少也會影響

      另外,在這項研究中研究者還發現,假如訓練數據中某個信息過少,那么 AI 在回答的時候出錯的可能性也會比較高。

      比如,當你問愛因斯坦的生日是幾月幾號的時候,因為在大量的資料里都有這個數據,所以 AI 幾乎不會出錯。但是當你問某個普通人“田小豆”的生日是幾月幾號的時候,這個數據出現次數特別少,AI 出錯的可能性也會變高。


      圖庫版權圖片,轉載使用可能引發版權糾紛

      特別是當數據只出現了一次的時候,這時候可能會更糟糕。

      因為 AI 大概率不會直接回答你“我不知道”,因為它在訓練數據集里確實見過,但它沒有足夠多的數據來確認這個信息到底是正確答案還是噪聲,它準確回答這個問題的可能性也會更低一些。

      數據模式和模型本身的限制,以及極少樣本的數據,都可能會讓 AI 在預訓練階段就產生“幻覺”,生成錯誤的內容。

      努力得高分的 AI

      如果說預訓練階段的統計學特征讓 AI 有了編造的“潛質”,人類評價AI的方式也逼著 AI 去“編造”。

      為了更好地理解這一點,我們可以先從大家都很熟悉的考試入手。人類社會中的大部分考試都是二元評分機制,即答對了得分,答錯或者不回答都不得分。

      所以,在考試的時候,哪怕你不知道答案,也不會交白卷,至少選擇題填空題會隨便蒙一個,萬一蒙對了還會有“意外之喜”。

      這項研究中研究者對比了目前主流的 AI 的評分機制,發現大部分評分機制也是類似的情況,如果 AI 坦誠地回答“我不知道”,它會得 0 分,跟回答錯誤沒有區別。與其這樣,它不如隨便蒙一個答案,哪怕蒙對的概率再低,數學期望也比 0 高。


      目前主流的評分機制大部分采用二元評分機制,圖片截取自文獻

      為了在主流的評分機制中拿到高分,“AI 考生們”也和人類一樣,學會了實在不行就亂蒙一個的本領。

      對此,這項研究的研究者們也給出了一個合理的解決方案——在現有的 AI 評分機制中,引入一個“懲罰編造,獎勵誠實”的機制。

      比如,假如 AI 回答正確,獲得 1 分,如果回答錯誤得 0 分,甚至扣分。如果回答“我不知道”,則可以不扣分,或者獲得一個微小的分數獎勵。

      重要問題上不要輕信 AI

      文獻也給出了結論,AI 的幻覺是從模型的預訓練階段起源的,在后訓練階段為了追求更高的評分也可能會被放大。

      雖然科學家們也采用了很多的方法減少 AI 幻覺,但至少在現階段看來,AI 幻覺還是無法避免的。假如你需要讓 AI 幫你解答一個重要的問題,比如在做公眾演講的時候用一個數據,建議親自核實一下。否則被人發現這些數據根本不存在,那可就尷尬了。

      而假如在問 AI 問題的時候,它對你說“我不知道”,你也應該感到慶幸,至少 AI 并沒有打算胡編亂造一個答案蒙騙你。

      參考文獻

      [1]Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why language models hallucinate. arXiv preprint arXiv:2509.04664.

      策劃制作

      作者丨小瑋科普創作者

      審核丨于旸 騰訊玄武實驗室負責人

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國乒幕后功臣浮出水面!能戰勝韓國有原因,王皓躲過一劫太幸運

      國乒幕后功臣浮出水面!能戰勝韓國有原因,王皓躲過一劫太幸運

      三十年萊斯特城球迷
      2026-05-08 22:57:55
      年稅收僅4億的小縣城,44000多名公務人員工資超26億?

      年稅收僅4億的小縣城,44000多名公務人員工資超26億?

      新浪財經
      2026-05-08 21:10:49
      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      三農老歷
      2026-05-08 19:20:12
      瓦倫丁直播,把整個機車圈的臉打腫了!張雪:我的車手不借錢參賽

      瓦倫丁直播,把整個機車圈的臉打腫了!張雪:我的車手不借錢參賽

      童叔不飆車
      2026-05-08 22:05:01
      鄰居闖進家中求助,男子為保護兒子婉拒,雙方互留書信道歉,一個說請原諒一個說很愧疚

      鄰居闖進家中求助,男子為保護兒子婉拒,雙方互留書信道歉,一個說請原諒一個說很愧疚

      瀟湘晨報
      2026-05-08 19:19:25
      “紙上安全”VS現實噩夢:華為問界產業鏈為何淪為“忽悠型”造車的重災區?

      “紙上安全”VS現實噩夢:華為問界產業鏈為何淪為“忽悠型”造車的重災區?

      SmartHey
      2026-05-08 10:10:02
      深度|梁文鋒自掏200億領投DeepSeek,大廠或出局,V4.1計劃6月上新

      深度|梁文鋒自掏200億領投DeepSeek,大廠或出局,V4.1計劃6月上新

      ZFinance
      2026-05-09 00:05:29
      “極度兇殘變態”!香港豪宅雙尸案:外籍銀行高層性虐及殺害兩女子,還拍犯案經過!被判終身監禁

      “極度兇殘變態”!香港豪宅雙尸案:外籍銀行高層性虐及殺害兩女子,還拍犯案經過!被判終身監禁

      大風新聞
      2026-05-08 21:45:04
      保時捷銷量暴跌92.7%!從加價50萬到6折甩賣,背后原因引發關注!

      保時捷銷量暴跌92.7%!從加價50萬到6折甩賣,背后原因引發關注!

      老特有話說
      2026-05-08 17:06:36
      評論丨“4只皮皮蝦1035元”店主去世,消費糾紛別變成人身攻擊

      評論丨“4只皮皮蝦1035元”店主去世,消費糾紛別變成人身攻擊

      紅星新聞
      2026-05-08 17:43:33
      梁文峰語出驚人:我雇你來,不是讓你完成任務,而是讓你創造價值

      梁文峰語出驚人:我雇你來,不是讓你完成任務,而是讓你創造價值

      荊楚寰宇文樞
      2026-05-08 23:16:21
      同甘共苦!金正恩父女與“崔賢”號官兵同吃自熱米飯!

      同甘共苦!金正恩父女與“崔賢”號官兵同吃自熱米飯!

      IN朝鮮
      2026-05-08 19:13:11
      自己錄音不讓游客錄,上海迪士尼被指“雙標”!客服:介意錄音可以不來電…

      自己錄音不讓游客錄,上海迪士尼被指“雙標”!客服:介意錄音可以不來電…

      北京商報
      2026-05-08 16:09:22
      普京時代漸近尾聲,中國需警惕俄羅斯政策變動風險

      普京時代漸近尾聲,中國需警惕俄羅斯政策變動風險

      律法刑道
      2026-05-08 11:06:45
      吳尚垠:我兒輸掉第1分很可惜 中國球員也是人有波動亞運奔金牌去

      吳尚垠:我兒輸掉第1分很可惜 中國球員也是人有波動亞運奔金牌去

      勁爆體壇
      2026-05-09 07:50:06
      炸鍋!李湘暴瘦50斤判若兩人,真實瘦身原因太驚人

      炸鍋!李湘暴瘦50斤判若兩人,真實瘦身原因太驚人

      鄉野小珥
      2026-05-09 01:41:16
      小馬云范小勤成年后首次直播:禮物刷屏不斷 在線人數一度破7萬

      小馬云范小勤成年后首次直播:禮物刷屏不斷 在線人數一度破7萬

      快科技
      2026-05-08 14:42:08
      缺德到這種地步,已經不是諷刺的問題了!

      缺德到這種地步,已經不是諷刺的問題了!

      胖胖說他不胖
      2026-05-08 08:55:19
      解散了!老板同意!交易穆雷

      解散了!老板同意!交易穆雷

      籃球教學論壇
      2026-05-09 08:34:07
      舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

      舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

      可達鴨面面觀
      2026-05-07 13:03:19
      2026-05-09 09:20:49
      科普中國 incentive-icons
      科普中國
      中國科協科普工作官方微平臺
      11981文章數 984539關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

      頭條要聞

      媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      白宮:特朗普計劃5月14日至15日訪問中國

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      數碼
      本地
      旅游
      公開課
      軍事航空

      數碼要聞

      極摩客推出NucBox M3 Pro迷你主機:13500H,DDR4,2280+2242

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      藏北高原“海洋藍” 壯美奇觀引客來

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一级毛片不卡在线播放免费| 日韩一欧美内射在线观看| 日本三级黄| 欧美日韩无线码在线观看| 国产一级无码不卡视频| 国产精品熟妇一区二区三区四区| 色色资源网| 在办公室被c到呻吟的动态图| 欧美视频在线观看第一页| 亚欧免费视频一区二区三区| 色先锋av资源中文字幕| 色欲av无码一区二区三区| 97热这里只有精品| 天天碰免费上传视频| 免费观看黄频视| 少妇午夜啪爽嗷嗷叫视频| 精品少妇大屁股白浆无码| 欧美色综合网站| 热久久视久久精品2019 | 蜜臂aV| www.啪啪白浆| 日本人妻少妇精品视频专区| 洗澡被公强奷30分钟视频| 好吊色国产欧美日韩免费观看| 久久综合色一综合色88| 亚洲欧美制服| 日日碰狠狠添天天爽超碰97| 97超碰人人操| 一本色道久久综合亚洲精品久久 | 国产精品集合| 亚洲精品在线成人| 超碰视屏| 欧美日韩在线第一页免费观看| 无码色av一二区在线播放| 18禁无遮挡免费视频网站| 国产欧美VA欧美VA在线| 国内精品视频一区二区三区| 久久青草费线频观看| www.黄色视频| 中文字幕人成人乱码亚洲电影| 免费A片网址|