<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      從鴿子到人工智能,強化學習怎樣按人類的意愿行事?

      0
      分享至



      人工智能(AI)堪稱當下最熱門的科技詞匯之一。隨著ChatGPT、DeepSeek等人工智能工具的出現,我們在親眼見證甚至親自體驗人工智能的力量的同時,卻也在目睹學術界和產業界領軍人物對人工智能的潛在風險發出警告:本應和人類相向而行的人工智能,卻很有可能和人類背道而馳。而如果我們想避免發生人工智能挑戰人類的事情,當務之急是解決“對齊問題”。

      美國計算機科學暢銷書作家布萊恩·克里斯?。˙rian Christian)就瞄準“對齊問題”,在他的作品《人機對齊:如何讓人工智能學習人類價值觀》中以廣闊的視野探討了諸多涉及人工智能的關鍵問題,呈現了機器學習和人類價值觀之間的深層聯系。以下這些來自克里斯汀書中的內容,讓我們看到早期對鴿子和其他動物的研究如何啟發了當今人工智能中的強化學習以及背后的挑戰和困境。

      1943年,斯金納在研究一個戰時秘密項目,這個項目最初是由通用磨坊食 品公司贊助的。通用磨坊把明尼阿波利斯金牌面粉廠的頂樓給斯金納做實驗室。這個項目是當時最大膽的構想之一:斯金納打算訓練鴿子啄食轟炸目標的圖像,然后把鴿子3只一組放在真正的炸彈里,在投彈時制導?!拔液屯聜冎溃彼菇鸺{說,“在全世界眼中,我們是瘋子。”

      斯金納意識到,許多人會認為這個項目瘋狂且殘忍。關于瘋狂,他指出,人類將動物(超越人類)的感官用于人類目的的歷史悠久且有傳奇色彩:導盲犬、搜尋松露的豬,等等。關于殘忍,他辯解道:“我們是否有權將低等生物轉化為不自知的英雄,思考這個倫理問題是和平時期才有的奢侈?!?/p>


      ▲斯金納

      斯金納長期致力于強化研究,他著名的“斯金納盒子”可以說是桑代克迷箱在20世紀中期的升級版。盒子中的燈、杠桿和機械食物給料器(通常是用自動 售貨機改裝)可以對強化進行精確和定量的研究,它們將被幾代研究人員沿用(例如舒爾茨將其用于研究猴子的多巴胺)。1950年代,斯金納利用他的盒子研究動物如何在各種條件下學會采取行動來最大化獎勵(通常是以食物的形式)。他提出了“強化程序”的概念,測試了各種類型的強化程序并觀察效果。例如,他比較了按“比率”強化(一定數量的正確行為會得到獎勵)與按“間隔”強化(一定時間后的正確行為會得到獎勵)。他測試了“固定”和“可變”強化,前者的行為數量或時長保持不變,后者允許波動。斯金納的著名發現是,最強烈、最重復、最持久的行為往往來自可變比率的程序——也就是說,獎勵出現在重復多次的行為之后,但重復次數會波動。這些發現對理解賭博成癮有一定啟示——可悲的是,它們無疑也啟發了如何設計更容易讓玩家上癮的賭博游戲。


      ▲一個以小鼠為實驗對象的斯金納盒子

      然而,在頂樓的秘密實驗室,斯金納還面臨另一個挑戰:不僅要弄清楚哪些強化程序能植入最根深蒂固的簡單行為,還要弄清楚如何僅僅通過獎勵來產生相對復雜的行為。有一次,當他和同事試圖教鴿子擊球時,困難變得很明顯。他們建了一個微型保齡球館,里面有木球和玩具球瓶,打算在鴿子向球猛擊時給予它第一次食物獎勵。不幸的是,什么都沒發生。鴿子沒有這樣做。實驗員等啊等啊……最終失去了耐心。

      然后他們改變了策略。如斯金納所述:

      我們決定強化任何與擊球稍有關聯的反應,也許起初只是看向球的行為,然后選擇更接近最終目標的反應。結果令我們驚訝。幾分鐘后,球開始在盒子壁間碰撞,就好像鴿子是壁球冠軍。

      效果是如此驚人,以至于斯金納的兩位助手——瑪麗安·布雷蘭(Marian Breland)和凱勒·布雷蘭(Keller Breland)夫妻倆——決定放棄心理學學術生涯,成立一家動物訓練公司?!拔覀兿肜盟菇鸺{的行為控制原理來謀生,”瑪麗安說。他們的動物行為公司將成為全世界同行業最大的公司,訓練各種動物在電視、電影、商業廣告和海洋世界等主題公園中表演。不僅僅是謀生:他們建立了一個王國。

      斯金納也認為,在面粉廠秘密實驗室的微型保齡球館里的這一刻對他是一種頓悟,改變了他職業生涯的軌跡。他認為,關鍵是“通過強化與最終目標大致相似的行為來逐漸塑造行為,而不是等待完全一樣的行為”。

      然而,鴿子計劃最終沒有付諸實施。鴿子們干得非常出色,如此出色,以至于轉移了政府科學研究和發展辦公室委員會的注意力。“由活著的鴿子執行任務的景象,不管多么美麗,”斯金納寫道,“只會提醒委員會我們的提議多么不切實際?!彼菇鸺{當時還不知道,政府正在努力推進曼哈頓計劃,研發一種殺傷半徑非常大的炸彈,用他的話來說,“有一段時間,精確轟炸的需要似乎已經徹底消失了”。然而,鴿子項目最終在海軍研究實驗室找到了安頓之所,改名為 ORCON(“生物控制”的簡稱),研究一直持續到戰后的20世紀50年代。

      斯金納認為這個概念已經證明可行,在20世紀50年代末,他自豪地寫道:“可以說,用生物來制導,不再是一個瘋狂的想法?!彪m然可行,但已經不合時宜。關鍵是他們發現了塑造:通過簡單獎勵來灌輸復雜行為,獎勵一連串近似的行為?!斑@使得塑造動物的行為成為可能,”斯金納寫道,“就像雕塑家捏黏土一樣?!边@個想法,以及這個術語,將在斯金納的職業生涯中扮演關鍵角色。他從一開始就意識到,它對商業和家庭生活都有影響。

      他寫道:“其中一些(強化程序)類似工業中廣泛使用的不固定的日工資或 計件工資;還有一些類似賭博機中精心設計的偶然事件,具有誘導持續行為的能力,讓人欲罷不能?!彼€認為強化對養育子女可能產生顯著影響:“對強化的科學分析有助于更好地理解人際關系。無論是否有意,我們幾乎總是在強化他人的行為。”斯金納指出,父母的注意力是一個強大的強化因素,父母如果對禮貌的要求反應遲鈍,就可能在不知不覺中訓練孩子變得煩人和愛出風頭。(他說,補救方法是對可接受的吸引注意力的行為——而不是大喊大叫或不禮貌的行為——做出更迅速、更一致的回應。)

      也許最具預言性的是,斯金納認為,基于他的研究發現的原理,廣義的教育,無論是針對人還是動物,可能會成為一個嚴格的、客觀的領域,這個領域有可能實現飛躍。正如他所說:“人們常說,教學是一門藝術,但我們越來越有理由希望它最終會成為一門科學?!彼菇鸺{可能比他預想的更正確。在21世紀,機器學習專家也可能會使用“塑造”這個術語,而且用法同心理學家一樣。對獎勵的研究,尤其是如何戰略性地管理獎勵以獲得你想要的行為,而不是你不想要的行為,的確已成為一門嚴格的定量科學,盡管可能不是像斯金納想象的那樣針對生物學習者。

      “試錯法”這個短語可能是蘇格蘭哲學家亞歷山大·貝恩(Alexander Bain)在1855年創造的,用來描述人類和動物是如何學習。(他創造的另一個短語—— “探索實驗”——也很貼切,但似乎沒有流行起來。)

      從最基本的角度來說,強化學習是通過試錯學習,這種試錯(也可以說是探索)最簡單的算法形式是所謂的“ε-貪婪”(厄普西隆―貪婪)算法。希臘字母 ε在數學上常用來表示“一點點”,ε-貪婪的意思就是“貪婪,除了一點點時間外”。一個按照ε-貪婪運行的自主體,大部分時間——比如說,99%——會根據到目前為止的有限經驗,采取它認為能帶來最大收益的行動。但是偶爾——例如,1%——會完全隨機地嘗試一些東西。比方說,在雅達利游戲中,偶爾隨機敲擊按鈕,看看會發生什么。

      如何用這種探索行為學習,有許多不同的風格,但基本想法是相同的——反復學習,多做讓你得到獎勵的事情,少做讓你受懲罰的事情。你可以嘗試顯式地理解世界是如何運作的(“基于模型的”強化學習),或者打磨你的直覺(“無模型的”強化學習)來做到這一點。你也可以通過學習某種狀態或行為能帶來多少收益來做到這一點(“價值”學習),或者只需知道哪些策略總體上做得更好(“策略”學習)。不管怎樣,幾乎所有方法都是基于這樣一個想法:首先偶然成功,然后傾向于去做更多看起來有效的事情。

      事實證明,有些任務比其他任務更適用這種方法。

      例如,在像《太空入侵者》這樣的游戲中,成群的敵人向你撲來,你所能做的就是左移、右移和射擊。隨機敲擊按鈕可能有機會干掉幾個游戲角色,每個角色都值幾分,這些初步的分數就可以用來啟動學習過程,通過學習,某些行為模式得到加強,更好的策略得到發展。例如,你可能會發現,只有射擊才會得分,所以你會更頻繁地射擊,得分也會更多。這類游戲一般都有“密集”的獎勵,從而相對容易學習。

      在其他游戲中,比如國際象棋,獎勵不是那么立竿見影,但它們仍然是確定的。一盤棋要么輸要么贏要么和棋,一般幾十步,幾乎不可能下到幾百步。即使你對策略一無所知,只會在棋盤上隨意擺弄,至少你很快就會知道你是贏了、輸了還是和棋。

      然而,在許多情況下,獲得任何收益都是奇跡。斯金納就有親身體會,他在獎勵鴿子在迷你保齡球館擊球時發現了這一點。鴿子不知道它面對的是什么游戲,可能需要幾年時間才能做出正確行為。當然,它(和斯金納)在那之前早就餓死了。

      機械學習者也是如此。例如,讓人形機器人將足球踢進網,可能需要對幾十個關節施加成千上萬次精確的扭矩,所有這些都必須完美協調。很難想象機器人隨意轉動幾十個關節能直立起來,與球進行有意義的接觸更難,更不要說將球送入網。

      強化學習研究人員稱這個為稀疏獎勵問題,或者更簡潔地稱為稀疏問題。 如果是根據最終目標或與最終目標相當接近的東西來給獎勵,那么人們基本上只能等待,直到隨機按按鈕或動作產生預期的效果。數學可以證明,大多數強化學習算法最終都會實現,但實際上,可能在太陽毀滅后很久才會實現。如果你試圖訓練一個圍棋程序來擊敗世界冠軍,而世界冠軍每次投子認輸你都獎勵它1分,否則就給0分,你將會等很長時間。

      稀疏問題還有安全隱患。如果你打算利用ε-貪婪強化學習開發一種能力極強的超智能 AI,并且決定,如果它能治愈癌癥,你就獎勵它1分,如果它不能治愈癌癥,得0分,那你得小心,因為在它得到第一個獎勵之前,它將不得不做大量隨機嘗試。其中許多嘗試都很笨拙。

      和布朗大學的邁克爾·利特曼(Michael Littman)聊天時,我問他,他對強化學習的研究對他教育子女有沒有幫助。他立刻想到了稀疏問題。他曾和妻子開玩笑說要對兒子使用稀疏獎勵:“這樣怎么樣?在他學會說中文前,我們不要給他東西吃。那會是很好的激勵手段!我們看看這行不行得通!”利特曼笑了?!拔移拮宇^腦非常清醒……她說:‘不,我們不玩這個游戲?!?/p>

      同斯金納一樣,利特曼當然知道不能那樣做。事實上,稀疏問題已經促使強化學習研究者去追溯斯金納的時代,他們相當直接地借鑒了他的建議。具體來說,他關于塑造的想法已經啟發了兩種不同但又相互交織的思想:一種是關于課程,另一種是關于激勵。

      (本文摘編自《人機對齊:如何讓人工智能學習人類價值觀》的“塑造”一章,配圖和標題為編者所加)


      書名:人機對齊:如何讓人工智能學習人類價值觀

      ?♂? 作者:[美]布萊恩·克里斯汀

      譯者:唐璐

      內容簡介

      如今的“機器學習”系統已具備非凡能力,能夠在各種場合代替我們看和聽,并代表我們做決定。但是警鐘已經敲響。隨著機器學習飛速發展,人們的擔憂也在與日俱增。如果我們訓練的人工智能(AI)做的事情與我們真正的目的不符,就會引發潛在的風險和倫理問題。研究人員稱之為對齊問題(the alignment problem)。

      暢銷書作家布萊恩·克里斯汀用生動的筆調,清晰闡釋了AI與我們息息相關的問題。在書中,我們將認識第一批積極應對對齊問題的學者,了解他們為了避免AI發展的局面失控,付出的卓絕努力和雄心勃勃的計劃??死锼雇〔粌H精練地描繪了機器學習的發展史,并且親自深入科研一線同科學家對話,準確呈現了機器學習最前沿的進展。讀者可以清晰認識到,對齊問題研究的成敗,將對人類的未來產生決定性影響。對齊問題還是一面鏡子,將人類自身的偏見和盲點暴露出來,讓我們看清自己從未闡明的假設和經常自相矛盾的目標。這是一部精彩紛呈的跨學科史詩,不僅審視了人類的科技,也審視了人類的文化,時而讓人沮喪,時而又柳暗花明。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      數學差的孩子,大腦里到底卡在哪一步

      數學差的孩子,大腦里到底卡在哪一步

      地球觀察日記
      2026-05-14 10:00:59
      5月18日,國乒新消息:向鵬深夜的發文 把國乒“后臺”全炸出來了

      5月18日,國乒新消息:向鵬深夜的發文 把國乒“后臺”全炸出來了

      浪子阿邴聊體育
      2026-05-19 01:40:24
      人老了,只剩一個人的時候,千萬要記?。?、不要再找老伴兒…

      人老了,只剩一個人的時候,千萬要記?。?、不要再找老伴兒…

      富書
      2026-04-30 23:20:06
      爭議?切爾西7500萬神鋒無緣世界杯!本賽季造26球卻被內馬爾擠掉

      爭議?切爾西7500萬神鋒無緣世界杯!本賽季造26球卻被內馬爾擠掉

      我愛英超
      2026-05-19 06:43:35
      雷霆主帥:我們過去防文班比今晚做得更好,G2進攻需要改進

      雷霆主帥:我們過去防文班比今晚做得更好,G2進攻需要改進

      懂球帝
      2026-05-19 14:48:23
      又一個宗馥莉?頂級豪門被爆家族丑聞,這人倫關系太炸裂了啊……

      又一個宗馥莉?頂級豪門被爆家族丑聞,這人倫關系太炸裂了啊……

      桌子的生活觀
      2026-05-18 12:22:57
      精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

      精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

      深度報
      2026-02-11 23:35:03
      北京vs上海G3上演“天王山之戰”,趙睿周琦能否率隊捍衛主場?

      北京vs上海G3上演“天王山之戰”,趙睿周琦能否率隊捍衛主場?

      狼叔評論
      2026-05-19 16:54:57
      邱澤許瑋甯公園遛娃,身上綁著腰凳將兒子舉高高,一家三口超幸福

      邱澤許瑋甯公園遛娃,身上綁著腰凳將兒子舉高高,一家三口超幸福

      黔鄉小姊妹
      2026-05-18 08:18:28
      樊振東歐冠輸球僅1天,日媒、德媒接連發文銳評,看法竟如出一轍

      樊振東歐冠輸球僅1天,日媒、德媒接連發文銳評,看法竟如出一轍

      阿纂看事
      2026-05-19 10:54:02
      奇葩!俄稱輸給烏不丟人,大家一家人,烏克蘭又一款大殺器亮相

      奇葩!俄稱輸給烏不丟人,大家一家人,烏克蘭又一款大殺器亮相

      史政先鋒
      2026-05-19 17:03:28
      《哭聲》導演新作戛納炸場:140分鐘外星怪物屠村,全程無尿點

      《哭聲》導演新作戛納炸場:140分鐘外星怪物屠村,全程無尿點

      影視情報室
      2026-05-19 01:52:38
      5月,遇到這菜別手軟,一次囤20斤,隨手一泡,從夏吃到冬,好吃

      5月,遇到這菜別手軟,一次囤20斤,隨手一泡,從夏吃到冬,好吃

      阿龍美食記
      2026-05-16 16:38:28
      就因一個概念,上市20天暴漲18倍,市盈率27420,今被停牌核

      就因一個概念,上市20天暴漲18倍,市盈率27420,今被停牌核

      丁丁鯉史紀
      2026-05-19 10:40:42
      武漢“癌癥村”老板親口承認:有人檢查前打電話,讓我堵排污口

      武漢“癌癥村”老板親口承認:有人檢查前打電話,讓我堵排污口

      聽心堂
      2026-05-19 09:08:32
      淺析:蘇-57雙座戰斗機曝光 滿足“忠誠僚機”剛需 爭取海外用戶

      淺析:蘇-57雙座戰斗機曝光 滿足“忠誠僚機”剛需 爭取海外用戶

      hawk26講武堂
      2026-05-19 12:49:16
      大雨、暴雨、雷雨今夜抵達浙江,最新降雨時段公布→

      大雨、暴雨、雷雨今夜抵達浙江,最新降雨時段公布→

      魯中晨報
      2026-05-19 16:42:04
      75歲大爺與保姆生下兒子,做親子鑒定后,大爺卻被子女們氣得心梗

      75歲大爺與保姆生下兒子,做親子鑒定后,大爺卻被子女們氣得心梗

      黃家湖的憂傷
      2025-03-06 09:30:21
      澳大利亞U17主帥:中國隊經歷多場硬仗,競技狀態已調至最佳

      澳大利亞U17主帥:中國隊經歷多場硬仗,競技狀態已調至最佳

      懂球帝
      2026-05-19 12:11:03
      突發!武漢一知名樓盤鄭重聲明

      突發!武漢一知名樓盤鄭重聲明

      越喬
      2026-05-19 14:55:36
      2026-05-19 17:52:49
      新發現雜志 incentive-icons
      新發現雜志
      歐洲第一人文科學雜志
      1285文章數 41052關注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      武大全面開放校園后一棵梧桐樹被刻字 校方回應

      頭條要聞

      武大全面開放校園后一棵梧桐樹被刻字 校方回應

      體育要聞

      文班亞馬1比0雷霆:凌駕MVP的史詩價值

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財經要聞

      從賣流量到賣Token,運營商算力生意破局

      汽車要聞

      配置全家桶 全新海獅05這次升級全在點上

      態度原創

      親子
      健康
      手機
      公開課
      軍事航空

      親子要聞

      娃總生?。恐嗅t教你從根上養出“鐵打的免疫力”

      專家揭秘干細胞回輸的安全風險

      手機要聞

      紅魔姜超詳談第五代驍龍8至尊領先版芯片的誕生

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普暫緩打擊伊朗 稱系應中東三國請求

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美成人看片黄a免费看| 国产高清在线a视频大全| 18禁视频一区二区三区| 日韩成人无码毛片| 亚洲2017天堂色无码| av天堂免费在线播放| 成人福利国产午夜AV免费不卡在线 | 亚洲区中文字幕日韩精品| 国产日韩欧美在线一二三四| 人妻中出无码中字在线| 超碰日韩AV在线| 亚洲午夜免费福利视频| 国产美女视频自拍| 国产精品资源管理站在线直播| 久久久综合亚洲色一区二区三区| 午夜少妇性影院私人影院在线| 国产精品中文字幕在线看| 日韩精品久久无码人妻中文字幕| 国产精品一区二区三乱码| 午夜福利??码一区二区成人网站| www.东京热| 亚洲欧美国产国产一区二区| 国产精品亚洲二区在线播放| 久人人爽人人爽人人片av| 亚洲五月婷婷| 国产色无码专区在线观看| 日韩少妇内射免费播放| 午夜福利精品视频免费看| 亚洲精品不卡午夜精品| 国产午夜福利片| 欧美无玛| 精品久久久久久无码中文字幕| 五月婷婷六月丁香综合| 久久亚洲精品日韩高清| 一本一道波多野结衣av中文| 日本亚洲精品无码专区| 微拍福利一区二区三区| 狂欢视频在线观看不卡| 91精品国产色综合久久不| 国产人妻无码一区二区三区免费| 午夜亚洲AV成人无码国产|