<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      這不是構建數字心智的方式:推理失敗如何阻礙AI模型實現人類智能

      0
      分享至

      一項新研究的作者認為,現有的大語言模型架構可能無法支撐實現人類級人工智能所需的問題解決能力。



      最新研究表明,當今最流行的人工智能工具在架構上的限制,可能會制約它們能夠達到的智能上限。

      2月5日發(fā)表在預印本平臺arXiv上的一項研究指出,現代大語言模型在其問題解決邏輯中天生容易出現斷裂,即所謂的「推理失敗」。

      當大語言模型丟失了可靠完成任務所需的關鍵信息,導致對看似簡單的問題給出錯誤答案時,就發(fā)生了推理失敗。該論文是對現有研究的綜述,專門考察了Transformer模型——這是一種神經網絡架構,支撐著包括ChatGPT、Claude和Google Gemini在內的流行AI聊天機器人。

      根據大語言模型在「人類最后考試」等評估中的表現,一些科學家認為,底層的神經網絡架構有朝一日可能催生出能夠達到人類級認知的模型。然而,研究人員指出,雖然Transformer架構使大語言模型在語言生成等任務上極為強大,但它也抑制了實現真正人類級推理所需的那種可靠的邏輯過程。

      「大語言模型已展現出卓越的推理能力,在廣泛的任務上取得了令人矚目的成果,」研究人員在論文中表示。「盡管取得了這些進步,嚴重的推理失敗依然存在,甚至在看似簡單的場景中也會發(fā)生……這種失敗被歸因于模型缺乏整體規(guī)劃和深度思考的能力。」

      大語言模型的局限性

      大語言模型在海量文本數據上進行訓練,通過逐詞預測一個合理的答案來響應用戶的提示。它們通過將稱為「標記」的文本單元串接在一起來實現這一點,這些串接方式基于從訓練數據中學到的統(tǒng)計模式。

      Transformer還使用一種稱為「自注意力」的機制來跟蹤長文本序列中單詞和概念之間的關系。自注意力機制加上龐大的訓練數據庫,使得現代聊天機器人非常擅長對用戶提示生成令人信服的答案。

      然而,大語言模型并不進行傳統(tǒng)意義上的任何實際「思考」。相反,它們的響應由算法決定。對于需要多步驟真正解決問題的長任務,Transformer可能會丟失關鍵信息,并退回到從訓練數據中學到的模式。這導致了推理失敗。

      「這一根本弱點不僅限于基本任務,還擴展到數學問題的組合、多事實聲明驗證以及其他本質上具有組合性的任務,」研究人員在論文中表示。

      推理失敗也是為什么大語言模型在被用戶告知回答錯誤后,常常仍然重復同樣的回復;或者對同一問題的不同表述方式給出不同答案——即使被要求逐步解釋其推理過程也是如此。

      英國阿蘭·圖靈研究所的高級研究數據科學家費德里科·南尼認為,大語言模型通常呈現為推理的東西,多半只是表面功夫。

      「人們發(fā)現,如果你告訴大語言模型不要直接回答,而是『一步步思考』并先寫出推理過程,它往往能得到正確答案,」南尼告訴媒體。「但這是一種技巧。這不是人類意義上的真正推理——它仍然只是裝扮成思維鏈的下一詞元預測,」他說。「當我們說這些模型『推理』時,我們實際的意思是,它們寫出一個推理過程——聽起來像是一串合理的推理鏈條。」

      現有AI基準測試的不足

      研究人員發(fā)現,當前評估大語言模型表現的方法在三個關鍵方面存在不足。第一,重新表述提示詞可能會影響結果。第二,基準測試隨著使用次數的增加而退化并受到污染。第三,它們只評估最終結果,而不是模型得出結論所用的推理過程。

      這意味著當前的基準測試可能嚴重高估了大語言模型的能力,并低估了它們在現實使用中失敗的頻率。



      「我們的立場不是說基準測試有缺陷,而是它們需要進化,」該研究的合著者、加州理工學院的計算機科學與機器人學學生宋培陽通過電子郵件表示。同樣地,南尼表示,基準測試往往會滲入到大語言模型的訓練數據中,這意味著后續(xù)的大語言模型會學會如何欺騙這些基準測試。

      「除此之外,既然模型已投入生產環(huán)境,使用本身也成了一種基準測試,」南尼說。「你把系統(tǒng)擺在用戶面前,看看哪里出問題——這就是新的測試。所以是的,我們需要更好的基準測試,也需要減少依賴AI來檢查AI。但這在實踐中非常困難,因為這些工具已經融入我們的工作方式,直接使用它們極其方便。」

      通往通用人工智能的新架構?

      與近期其他研究不同,這項新研究并不認為神經網絡方法在追求通用人工智能的道路上是死胡同。相反,研究人員將其比作計算機的早期時代,指出理解大語言模型為何失敗是改進它們的關鍵。

      然而,他們確實認為,僅僅在更多數據上訓練模型或擴大模型規(guī)模,不太可能獨自解決這個問題。這意味著,開發(fā)通用人工智能可能需要一種根本不同的模型構建方法。

      「神經網絡,尤其是大語言模型,顯然是通用人工智能圖景的一部分。它們的進展是非凡的,」宋說。「然而,我們的綜述表明,僅靠擴展規(guī)模不太可能解決所有推理失敗……[這意味著]達到人類級推理可能需要架構上的創(chuàng)新、更強的世界模型、改進的魯棒性訓練,以及與結構化推理和具身交互的更深度融合。」

      南尼對此表示贊同。「從心智哲學的角度來看,我認為我們基本上已經找到了Transformer的極限。它們不是你構建數字心智的方式,」他說。「它們對文本的建模極其出色,以至于幾乎無法分辨一段文字是出自人類還是機器之手。『但這就是它們的本質:語言模型……這種架構的潛力是有限的。』」

      如果朋友們喜歡,敬請關注“知新了了”!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      隨著日本3-1,卡塔爾0-2,亞洲杯8強已經誕生6席:中國男足壓哨晉級

      隨著日本3-1,卡塔爾0-2,亞洲杯8強已經誕生6席:中國男足壓哨晉級

      側身凌空斬
      2026-05-13 02:02:59
      特朗普訪華隨行團名單里,藏著一份重要轉向密碼

      特朗普訪華隨行團名單里,藏著一份重要轉向密碼

      識局Insight
      2026-05-12 19:33:20
      俄羅斯副總理諾瓦克:俄羅斯將2026年經濟增長預測從1.3%下調至0.4%

      俄羅斯副總理諾瓦克:俄羅斯將2026年經濟增長預測從1.3%下調至0.4%

      財聯社
      2026-05-12 05:06:20
      廣東出局夜王少杰淚灑現場!2年租借到期 下賽季回歸存疑

      廣東出局夜王少杰淚灑現場!2年租借到期 下賽季回歸存疑

      狼叔評論
      2026-05-13 01:14:09
      CBA首組半決賽:歷史第7次京滬大戰(zhàn) 時隔25年再爭總決賽名額

      CBA首組半決賽:歷史第7次京滬大戰(zhàn) 時隔25年再爭總決賽名額

      醉臥浮生
      2026-05-12 22:06:15
      曝東契奇要求湖人留下里夫斯!詹姆斯去留棘手:騎勇很可能招攬他

      曝東契奇要求湖人留下里夫斯!詹姆斯去留棘手:騎勇很可能招攬他

      羅說NBA
      2026-05-12 21:43:19
      震驚!理查德·費曼IQ只有125,卻被物理學家譽為20世紀最偉大頭腦

      震驚!理查德·費曼IQ只有125,卻被物理學家譽為20世紀最偉大頭腦

      知識圈
      2026-05-12 20:33:37
      中美關系的潛力、張力、角力|誰在“只有特朗普”的對華政策決策圈中發(fā)揮作用

      中美關系的潛力、張力、角力|誰在“只有特朗普”的對華政策決策圈中發(fā)揮作用

      澎湃新聞
      2026-05-12 07:26:27
      浙大鄭強教授:我不承認中國大學生就業(yè)難,是舒服的工作難找,建議少點抱怨少點索取

      浙大鄭強教授:我不承認中國大學生就業(yè)難,是舒服的工作難找,建議少點抱怨少點索取

      TOP大學來了
      2026-05-11 16:39:00
      中國乒協(xié)發(fā)布公示

      中國乒協(xié)發(fā)布公示

      極目新聞
      2026-05-12 15:00:21
      美國突發(fā)利空,三倍做多半導體狂跌18%,存儲、光通信都崩了

      美國突發(fā)利空,三倍做多半導體狂跌18%,存儲、光通信都崩了

      金石隨筆
      2026-05-13 00:27:33
      猛料!美36位精神病專家呼吁立即罷免特朗普;俄200架無人機襲烏

      猛料!美36位精神病專家呼吁立即罷免特朗普;俄200架無人機襲烏

      史政先鋒
      2026-05-12 20:17:03
      0分,全部0分!兩大核心啊!廣東隊正式淘汰出局

      0分,全部0分!兩大核心啊!廣東隊正式淘汰出局

      籃球實戰(zhàn)寶典
      2026-05-12 21:48:38
      京滬高鐵漲價,罵聲一片

      京滬高鐵漲價,罵聲一片

      鳳眼論
      2026-05-12 16:53:49
      網友屏蔽“愛國流量”名人企業(yè),司馬南、華為上榜,評論區(qū)太認同

      網友屏蔽“愛國流量”名人企業(yè),司馬南、華為上榜,評論區(qū)太認同

      譚談社會
      2026-05-12 16:50:17
      天壇公園:5月13日至14日暫停開放

      天壇公園:5月13日至14日暫停開放

      南方都市報
      2026-05-12 12:01:58
      張本美和態(tài)度變了!日媒采訪放狠話:后年在日本主場要復仇孫穎莎

      張本美和態(tài)度變了!日媒采訪放狠話:后年在日本主場要復仇孫穎莎

      小徐講八卦
      2026-05-12 10:07:29
      深圳夫妻精準囤貨,5個月身家暴漲320億

      深圳夫妻精準囤貨,5個月身家暴漲320億

      都市快報橙柿互動
      2026-05-12 20:25:59
      揚眉吐氣史無前例!第一次把在任美國國務卿永久攔在中國國門外

      揚眉吐氣史無前例!第一次把在任美國國務卿永久攔在中國國門外

      雪中風車
      2026-05-12 13:10:31
      5月12日俄烏最新:盧比奧指責澤連斯基撒謊

      5月12日俄烏最新:盧比奧指責澤連斯基撒謊

      西樓飲月
      2026-05-12 18:44:18
      2026-05-13 03:15:00
      知新了了
      知新了了
      專注于新知、科普的傳播
      5988文章數 2275關注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區(qū)淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態(tài)度原創(chuàng)

      游戲
      房產
      教育
      數碼
      家居

      活久見!電棍與香鍋怒噴被擼圈開除后和解,祝Mlxg母親節(jié)日快樂

      房產要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      教育要聞

      求求你試試「5+1+1」學習法!!!

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      家居要聞

      極簡主義下的居住場域與空間

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色www亚洲| 狂野欧美性猛XXXX乱大交| 日本在线看片免费人成视频1000| 久久久无码精品一区二区三区蜜桃| 国产精品亚洲二区在线观看| 日日碰狠狠添天天爽超碰97久久| 99精品国产兔费观看久久99 | 黄a无码片内射无码视频| 日本成熟少妇激情视频免费看| 免费女人高潮流视频在线| 亚洲123区| 久久综合九色综合狠狠97| 亚洲日韩欧美一区二区三区| 日韩av毛片福利国产福利| 阿片免费看| 久久久久亚洲av无码专区首jn| 日本高清中文字幕免费一区二区| av国产传媒精品免费| 亚洲综合香蕉| 免费看小12萝裸体视频国产| 亚洲精品日本久久久中文字幕| 综合久久9| 欧洲熟妇色xxxx欧美老妇多毛网站| 久久精品夜色噜噜亚洲aa| 欧洲丰满熟女a片| 精品久久久无码人妻中文字幕豆芽| 少妇私密会所按摩到高潮呻吟| 精品日本一区二区三区在线观看| 国产伦精品一区二区三区妓女| www.日日撸| 精品国产91天堂嫩模在线观看| 性生大片一级毛片免费观看| 久久国国产免费999| 91精品国产麻豆国产自产| 中文字幕av免费看| 97精品综合久久| 国产农村妇女毛片精品久久久| 天天做天天爱夜夜爽导航| 国产精品一区久久人人爽| 欧美做受???免费| 色欲久久久天天天综合网精品|