<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI發表Nature論文:揭開AI模型總“說謊”的真相,人類對AI準確性的評估促使其產生幻覺

      0
      分享至

      撰文丨王聰

      編輯丨王多魚

      排版丨水成文


      當你問當前幾個主流的大語言模型,PGGB是什么意思?

      ChatGPT回答:“多項式高斯梯度帶寬”(Polynomial Gaussian Gradient Bandwidth);

      Claude回答:“私募全球增長與收益基金”(Privately Held Global Growth and Income Fund);

      DeepSeek回答:“完美守衛團購”(Perfect Guard Group Buy)。

      但實際情況是,這三個回答都是錯的,都是它們瞎編的。那么,這些大語言模型為什么不回答不知道,而是自信滿滿地給出一個編造的看似專業的答案呢?

      這種現象在 AI 領域被稱為“幻覺”(Hallucination),也就是,大語言模型(LLM)有時會產生自信且看似合理但錯誤的信息,而這這限制了它們的可靠性。即便是在當前最先進(SOTA)的語言模型中,幻覺問題依然存在。要想進一步減少 AI 的幻覺,我們需要了解它們為何產生以及為何持續存在。

      2026 年 4 月 22 日,OpenAI的研究人員國際頂尖學術期刊Nature上發表了題為:Evaluating large language models for accuracy incentivizes hallucinations 的研究論文。

      這項研究揭示了一個令人驚訝的真相——我們用來衡量 AI 模型能力的評估標準,可能正是導致它“說謊”(出現幻覺)的元兇。


      為什么 AI 會“胡說八道”?

      如果你正在參加一場考試,遇到一道完全不會的題目,此時你會怎么做?相信大多數人會隨便猜一個答案寫上去,因此空著不答顯然是零分,而瞎蒙一個就算錯了也不會多扣分,并沒有額外損失。

      大語言模型(LLM)也面臨同樣的困境。

      研究團隊從兩個層面分析了幻覺產生的原因。

      首先是預訓練階段的統計壓力,大語言模型最初通過“下一個詞預測”進行訓練,即使訓練數據完全正確無誤,這種訓練方式也會產生統計偏差。對于訓練數據中只出現一次的事實(比如某人的生日),模型幾乎不可避免地會產生錯誤;而對于反復出現的規律(比如語法規則),錯誤率則很低。這就像你只見過某人一次,很難準確記住他的生日;但如果你每天都用同樣的語法結構,自然能掌握它。簡單來說,AI 對罕見事實的“記憶”天生就不靠譜。

      評估體系的“后天誤導”

      更嚴重的問題出現在后續的評估階段

      基于準確性的評估指標系統性地獎勵猜測行為。當前對于大語言模型的主流評估方式——基于準確性(accuracy)的評分系統,這在本質上是在鼓勵 AI“猜答案”而不是“承認不知道”。

      研究團隊分析了多個主流的大語言模型基準測試,發現絕大多數都采用二元評分:答對得 1 分,答錯或放棄得 0 分。在這種規則下,放棄回答永遠是最差的選擇,因為放棄意味著 0 分,而猜一個答案至少有機會得分。

      研究團隊舉了一個具體例子:在SimpleQA評估中,OpenAI 的 o4-mini 模型幾乎回答了所有問題(錯誤率超過 3/4),而 GPT-5-mini 則經常選擇放棄(因此錯誤更少)。但在這一評估標準下,o4-mini 的得分反而更高,因為它答得多。

      這種評估方式讓 AI 陷入了“考試模式”——永遠在猜答案,永遠不敢說“我不知道”。而現實中,一個可靠的人類助手在面對不確定的問題時,會主動承認知識局限或請求更多信息。


      訓練和評估過程中幻覺的起源與持續存在

      解決方案:讓AI知道“考試規則”

      那么,如何解決這個問題?論文提出了一個簡單而有效的方案:開放式評分標準(open-rubric)。

      具體做法是:在向 AI 提問時,明確告知評分規則。比如:“正確答案得 1 分,錯誤答案得 -1 分(所以如果你正確的概率低于 50%,那么最好放棄回答)”、“只有完全正確的答案才能得分(如果不確定,請做出最佳猜測)”

      這就像考試前老師明確告知“答錯扣分”還是“答錯不扣分”,讓學生可以根據規則調整策略。

      接下來,研究團隊在四個前沿模型(Google 的 Gemini 3 Pro、OpenAI 的 GPT-5、xAI 的 Grok 4,以及 Anthropic 的 Claude Opus 4.5)上進行了實驗。結果顯示,當使用“開放式評分標準”時,所有模型都能根據不同的錯誤懲罰程度調整自己的“猜測傾向”——懲罰越重,放棄越多。

      更重要的是,在這種評估體系下,減少幻覺的技術不再需要以降低準確率為代價。模型可以像好學生一樣,既展示知識,又懂得在適當的時候保持謹慎。

      這對 AI 發展意味著什么?

      這項研究揭示了一個根本性的問題:我們如何評估 AI,決定了 AI 如何行為。

      當前,大語言模型的開發過程中,準確率等“關鍵指標”主導著模型選擇、數據篩選和算法優化。如果這些指標本身就在鼓勵不良行為,那么無論我們在減少幻覺方面取得多少技術進步,都可能被評估體系所抵消。

      因此,論文作者強調,提高 AI 的可靠性不僅是建模問題,更是評估機制設計問題。與其增加單獨的反幻覺基準測試,不如修改評估方式,讓它們能夠激勵 AI 在適當的時候承認不確定性。

      隨著大語言模型在醫療、法律、金融等關鍵領域的應用越來越廣泛,解決幻覺問題變得至關重要。這項發表于Nature的研究提醒我們,要讓 AI 更可靠,我們首先需要更聰明的評估方式。

      論文鏈接

      https://www.nature.com/articles/s41586-026-10549-w

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗外長太聰明了:不求中國給飛機大炮,只求中國一件事!

      伊朗外長太聰明了:不求中國給飛機大炮,只求中國一件事!

      安安說
      2026-05-07 11:09:34
      毀三觀!老大爺數次猥褻小米汽車事件瘋傳!車身布滿J斑殘留

      毀三觀!老大爺數次猥褻小米汽車事件瘋傳!車身布滿J斑殘留

      魔都囡
      2026-05-08 09:57:03
      舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

      舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

      可達鴨面面觀
      2026-05-07 13:03:19
      知名男星現身深圳街頭,超多人圍觀!網友:此人太帥,疑似AI生成

      知名男星現身深圳街頭,超多人圍觀!網友:此人太帥,疑似AI生成

      深圳晚報
      2026-05-08 12:40:39
      快訊!國際足聯還是低頭了!

      快訊!國際足聯還是低頭了!

      故事終將光明磊落
      2026-05-08 16:00:50
      國家免費電視已開通!不用繳費,動手調好就能看

      國家免費電視已開通!不用繳費,動手調好就能看

      小柱解說游戲
      2026-05-08 16:59:21
      伯克希爾等著撿尸體

      伯克希爾等著撿尸體

      販財局
      2026-05-08 14:52:06
      男子自稱是“公務員、有房”,致女友懷孕后遲遲不結婚,女友報警!警方:該男子無業,已在香港結婚生子,詐騙多名未婚女性170萬元

      男子自稱是“公務員、有房”,致女友懷孕后遲遲不結婚,女友報警!警方:該男子無業,已在香港結婚生子,詐騙多名未婚女性170萬元

      極目新聞
      2026-05-08 16:11:52
      快訊!關于鄭麗文的消息!

      快訊!關于鄭麗文的消息!

      故事終將光明磊落
      2026-05-08 14:34:21
      賴清德返臺后稱臺灣是國家,下令拆除蔣介石像,大陸六字預言結局

      賴清德返臺后稱臺灣是國家,下令拆除蔣介石像,大陸六字預言結局

      涼了時光人
      2026-05-08 09:46:12
      沙特翻臉!突然對美軍關閉領空,特朗普連忙打電話化解,但未奏效;特朗普曾點名表揚:沙特做得很好,阿聯酋也很好

      沙特翻臉!突然對美軍關閉領空,特朗普連忙打電話化解,但未奏效;特朗普曾點名表揚:沙特做得很好,阿聯酋也很好

      大風新聞
      2026-05-08 15:36:05
      三星員工:240萬人民幣就想打發我 隔壁SK海力士明年可是要發650萬!

      三星員工:240萬人民幣就想打發我 隔壁SK海力士明年可是要發650萬!

      快科技
      2026-05-07 19:53:05
      向導掐人中救醒高反昏迷女子反遭掌摑,有網友稱其“裝暈想免費下山”,女子否認:已報警;被打向導發聲:她嚴重高反或因幻覺打人,已道歉

      向導掐人中救醒高反昏迷女子反遭掌摑,有網友稱其“裝暈想免費下山”,女子否認:已報警;被打向導發聲:她嚴重高反或因幻覺打人,已道歉

      都市快報橙柿互動
      2026-05-08 12:27:22
      4只皮皮蝦花了1035元后續:店老板離世,真相曝出,顧客騙了全網

      4只皮皮蝦花了1035元后續:店老板離世,真相曝出,顧客騙了全網

      李晚書
      2026-05-08 16:09:22
      89歲謝賢被CoCo爆料,分手原因:他身體跟不上我,張柏芝也被牽連

      89歲謝賢被CoCo爆料,分手原因:他身體跟不上我,張柏芝也被牽連

      好賢觀史記
      2026-05-08 15:57:30
      評論丨“4只皮皮蝦1035元”店主去世,消費糾紛別變成人身攻擊

      評論丨“4只皮皮蝦1035元”店主去世,消費糾紛別變成人身攻擊

      紅星新聞
      2026-05-08 17:43:33
      摩托車撞倒3名過斑馬線行人致2死,“時速超120公里,事發時疑在飆車”,被害人家屬發聲

      摩托車撞倒3名過斑馬線行人致2死,“時速超120公里,事發時疑在飆車”,被害人家屬發聲

      澎湃新聞
      2026-05-08 18:05:26
      中信集團旗下資本入局華誼兄弟,以成交價總計1092.38萬元競得王忠磊所持560萬股股份

      中信集團旗下資本入局華誼兄弟,以成交價總計1092.38萬元競得王忠磊所持560萬股股份

      每日經濟新聞
      2026-05-08 17:22:14
      一艘中國船東所有的油輪遇襲,外交部:船上有中國籍船員,目前暫無傷亡情況

      一艘中國船東所有的油輪遇襲,外交部:船上有中國籍船員,目前暫無傷亡情況

      澎湃新聞
      2026-05-08 15:36:29
      14歲神童手搓發動機被曝造假!漏洞百出吹上天,普通人拿什么比?

      14歲神童手搓發動機被曝造假!漏洞百出吹上天,普通人拿什么比?

      社會日日鮮
      2026-05-08 04:18:01
      2026-05-08 20:03:00
      生物世界 incentive-icons
      生物世界
      最前沿、最有趣的生命科學研究
      9347文章數 145070關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      媒體:"4只皮皮蝦1035元"店主去世僅43歲 觸發人們反思

      頭條要聞

      媒體:"4只皮皮蝦1035元"店主去世僅43歲 觸發人們反思

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      輪到豆包收割了?

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      教育
      藝術
      親子
      游戲
      軍事航空

      教育要聞

      重磅!綿陽安州區發布義務教育招生公告(附劃片范圍、招生計劃)

      藝術要聞

      探索施密德的油畫,感受無法抵擋的藝術魅力!

      親子要聞

      小朋友老愛啃指甲,是身體缺什么營養嗎?

      索尼PS要打造最佳游戲平臺!獨占新作用AI 玩家別慌

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品无圣光视频| 污网站在线观看视频| 色综合a怡红院怡红院| 亚洲视频a| 中文字幕亚洲资源一区二区| 久久综合图区亚洲综合图区| 亚洲欧美国产国产综合一区| 国产乱子伦视频三区| 中国丰满熟妇xxxx性| 老司机亚洲精品| 亚洲乱码中文字幕综合| 国产免费一区二区三区最新不卡| 天堂av在线成人免费| 激情文学一区二区国产区| 夜夜操影院| 福利一区二区三区视频在线| 香港三级日本三级人妇99| 欧美日韩精品在线播放| 内射中出日韩无国产剧情| 亚洲精品天堂在线观看| 91在线视频观看| 国产精品久久久久久久久久98| 亚洲av日韩av综合aⅴxxx| 国产精品午夜无码体验区| 超碰人人摸| 国产精品美女久久久| 国产AV无码专区亚洲精品| 2018av无码视频在线播放| 国产VA网站| 亚洲色欲av| 宅男午夜| 国产真实伦视频在线视频| 少妇无码一区二区三区免费| 亚洲色成人一区二区三区| 美女国产精品视频| 日韩人妻无码精品无码中文字幕 | 免费极品AV一视觉盛宴| 国产av永久无码精品网站| 久久亚洲精品情侣| 91看片免费| 亚洲欧美国产精品专区久久|