<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      教授直言:AI突破關鍵非Transformer架構

      0
      分享至

      只要一提到大模型,很多人張口閉口就是Transformer架構有多么顛覆。似乎掌握了架構設計,就拿到了通往通用人工智能的門票。

      普林斯頓大學助理教授莊劉(Zhuang Liu)在最近的一次交流中,直接打破了這種固有認知。

      作為在深度學習架構領域的頂尖學者,他明確指出,在實際應用中,有很多因素遠比單純的架構選擇重要得多。



      現(xiàn)在學術界在AI架構研究上到底處于什么狀態(tài)?在落地應用時,決定AI表現(xiàn)的究竟是什么?



      相比于前幾年各種新架構層出不窮,現(xiàn)在的學術界在底層架構研究上,變得沒有那么活躍了。

      莊劉教授坦誠地點出了痛點:學術界現(xiàn)在根本負擔不起足夠大的計算規(guī)模,來在有說服力的體量上去驗證這些架構創(chuàng)新的效果。

      理想情況下,如果有了新的架構點子,應該在最前沿的規(guī)模上進行驗證。不一定是萬億美元級別,但至少也得在70億、或者300億參數(shù)這樣的龐大規(guī)模上跑出效果。



      因為工業(yè)界需要看到這個規(guī)模的收益才會信服。

      目前,反而是那些擁有開放權重模型的科技公司,比如Kimi、DeepSeek等,還在不斷地擺弄和優(yōu)化架構。他們有大量的計算資源去測試如何修改殘差連接,以及如何連接不同的網(wǎng)絡層。

      受限于算力資源,學術界在超大規(guī)模底層架構的探索上面臨困難。但這并不意味著探索停止,莊劉教授表示,他自己還是會在大學現(xiàn)有的資源下試著研究,借助云代碼工具親手寫代碼進行驗證。



      那么,所謂的“顛覆性架構”真的不可替代嗎?莊劉團隊在2021年做了一項名為“面向20年代的卷積網(wǎng)絡”的研究。

      當時,Transformer剛進入計算機視覺領域,性能極其亮眼,整個視覺圈子都在從傳統(tǒng)的卷積網(wǎng)絡往視覺Transformer遷移。

      他們想搞清楚:這種性能差距,究竟是因為自注意力機制的內(nèi)在優(yōu)勢,還是因為其他細小的設計細節(jié)?

      研究得出的答案是后者。他們通過系統(tǒng)性地控制設計組件,將卷積網(wǎng)絡進行了現(xiàn)代化改造,比如調整激活函數(shù)的使用、減少歸一化層。



      結果發(fā)現(xiàn),改造后的卷積網(wǎng)絡在各種任務上,都能跟當時極強的視覺Transformer打平。

      根本沒有任何一個單一的改動能瞬間拉升性能,真正起作用的是把所有的小細節(jié)組合在一起。這些小細節(jié)的組合,比看起來像是網(wǎng)絡核心組件的改變要重要得多。

      只要輸入輸出接口保持不變,不管選哪種架構,只要用上殘差連接、自注意力等合理機制,在合適位置放對激活函數(shù)和前饋層,最終都會非常接近性能與效率的最高前沿。在過去很多年里,除了成熟架構,并沒有什么真正被廣泛采用的根本性創(chuàng)新。



      既然架構選擇不是唯一的決定性因素,在實際應用中,什么才是最核心的命門?

      莊劉教授給出了肯定的答案:用什么數(shù)據(jù)來訓練模型,比架構的選擇重要得多。

      一旦用更多的計算、更多樣化的大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)去訓練,同樣的模型就會涌現(xiàn)出極具競爭力的性能。深度學習最大的啟示是:你想讓模型在哪方面做得好,就必須針對那方面去訓練。

      為了讓模型什么都會,普遍的假設是模型需要在訓練時見過所有的東西。但計算資源和模型容量是有限的,模型學到的不同能力之間會相互競爭。

      如何平衡不同數(shù)據(jù)領域是關鍵。莊劉教授提到,不能讓“怎么理發(fā)”的話題跟“怎么編程”擁有同樣多的數(shù)據(jù),因為編程顯然更重要。需要把關心的所有領域大致劃分出來,在訓練集里讓它們保持恰當?shù)呐浔取?/p>



      如果你希望模型在面向用戶時對各種任務都有不錯的能力,那么在訓練集里擁有足夠的數(shù)據(jù)就是最合理的解法。



      現(xiàn)在的模型能力很強,但人類有超強的記憶力,模型卻比不上。在職業(yè)和個人生涯里,有太多東西我們希望模型能記住,比如互動歷史、偏好等,這樣就不必反復去講。



      如何不讓模型遺忘,這是持續(xù)學習需要解決的問題。如果能成功解決記憶問題,會比搭建協(xié)作式智能體更有價值。之所以需要大量智能體分開做不同任務,就是因為一個智能體記不住所有事情。

      除了記憶,對于不同類型的工作,模型的需求也不同。對于數(shù)字工作、白領工作,很多事在數(shù)字空間里完成,可能只需要一個能讀懂電腦屏幕的模型,不需要世界模型。

      但對于體力勞動,比如建筑、開車、理發(fā)、醫(yī)療手術等物理活動,工作中的反饋非常精細,這確實需要視覺世界模型。超過半數(shù)的工作想真正做好的話,都需要視覺世界模型。



      綜上所述,當前的AI領域,學術界受限于算力規(guī)模,在超大架構研究上面臨門檻。而研究也表明,細致的組件優(yōu)化往往能達到與核心架構改變相似的效果。

      在實際落地應用中,優(yōu)質、海量且配比合理的數(shù)據(jù),是決定模型能力的關鍵。未來,誰能突破模型長久記憶與持續(xù)學習的瓶頸,誰能構建出適應物理世界的視覺世界模型,誰就能讓AI產(chǎn)生真正的質變。

      對于AI總是記不住你的指令和偏好這件事,你在日常使用中有沒有遇到過類似的煩惱?歡迎在評論區(qū)留下你的看法!

      聲明:個人原創(chuàng),僅供參考

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      突傳死訊!香港知名演員老公在家中離世,坐在輪椅上沒了呼吸

      突傳死訊!香港知名演員老公在家中離世,坐在輪椅上沒了呼吸

      一盅情懷
      2026-05-10 12:46:52
      全球最大的公司誕生!市值35萬億,相當于15個阿里,利潤超8000億

      全球最大的公司誕生!市值35萬億,相當于15個阿里,利潤超8000億

      簡易科技
      2026-05-10 15:18:40
      韋東奕形象大變,簡直像換了個人!韋神包換了,頭發(fā)少了,老了許多,變的洋氣了不少!

      韋東奕形象大變,簡直像換了個人!韋神包換了,頭發(fā)少了,老了許多,變的洋氣了不少!

      白宸侃片
      2026-05-08 12:09:25
      湖南衛(wèi)視停播背后:娛樂至死時代的一劑清醒針

      湖南衛(wèi)視停播背后:娛樂至死時代的一劑清醒針

      鄉(xiāng)野小珥
      2026-05-09 01:27:52
      王勵勤嶄新角色?國家體育總局發(fā)布審核名單 年度教練員絕非普通人能夠勝任

      王勵勤嶄新角色?國家體育總局發(fā)布審核名單 年度教練員絕非普通人能夠勝任

      生活新鮮市
      2026-05-11 00:28:08
      40歲女子實名舉報,12歲遭親哥多次猥褻,27年后翻舊賬引全網(wǎng)互撕

      40歲女子實名舉報,12歲遭親哥多次猥褻,27年后翻舊賬引全網(wǎng)互撕

      筆尖下的人生
      2026-05-09 19:01:21
      任何一個男人到了六十歲后,只要還對異性懷有欣賞與追求,往往因為這兩件事

      任何一個男人到了六十歲后,只要還對異性懷有欣賞與追求,往往因為這兩件事

      心理觀察局
      2026-05-04 08:51:11
      5月10日晚間,多家上市公司發(fā)布重大利好利空好消息

      5月10日晚間,多家上市公司發(fā)布重大利好利空好消息

      A股數(shù)據(jù)表
      2026-05-10 19:53:04
      男子為尋求“刺激”,深夜?jié)撊肓羰貗D女家,2020年十多人被其糟蹋

      男子為尋求“刺激”,深夜?jié)撊肓羰貗D女家,2020年十多人被其糟蹋

      漢史趣聞
      2026-05-10 16:38:24
      系統(tǒng)升級后,續(xù)航從500公里變300公里,快充也從40分鐘拖到70分鐘……最近投訴激增!揭秘新能源車“鎖電”真相

      系統(tǒng)升級后,續(xù)航從500公里變300公里,快充也從40分鐘拖到70分鐘……最近投訴激增!揭秘新能源車“鎖電”真相

      都市快報橙柿互動
      2026-05-10 15:48:38
      白鹿深夜即興開嗓,重錄視頻顯素養(yǎng),真實的狀態(tài)惹熱議

      白鹿深夜即興開嗓,重錄視頻顯素養(yǎng),真實的狀態(tài)惹熱議

      胖松松與瘦二毛
      2026-05-10 17:57:18
      倫敦世乒賽:中日五盤大戰(zhàn),日乒幕后推手原是河北省隊邊緣球員!

      倫敦世乒賽:中日五盤大戰(zhàn),日乒幕后推手原是河北省隊邊緣球員!

      夕落秋山
      2026-05-11 01:50:59
      張文宏:此次疫情核心在于傳播路徑異常;“洪迪厄斯”號郵輪8人發(fā)病3死,“室內(nèi)房間不能隨意開窗”;西班牙稱接收工作“一切準備就緒”

      張文宏:此次疫情核心在于傳播路徑異常;“洪迪厄斯”號郵輪8人發(fā)病3死,“室內(nèi)房間不能隨意開窗”;西班牙稱接收工作“一切準備就緒”

      大象新聞
      2026-05-10 08:46:41
      “有這種媽,抑郁癥就好不了!”一段母子倆出游視頻,令人窒息

      “有這種媽,抑郁癥就好不了!”一段母子倆出游視頻,令人窒息

      妍妍教育日記
      2026-05-07 10:30:13
      5.10重慶重大交通事故后續(xù),女司機下車一臉驚恐,警方通報

      5.10重慶重大交通事故后續(xù),女司機下車一臉驚恐,警方通報

      阿鳧愛吐槽
      2026-05-10 22:37:27
      男團決賽,梁靖昆讓二追三,助力國乒拿下關鍵一分,1-0領先!

      男團決賽,梁靖昆讓二追三,助力國乒拿下關鍵一分,1-0領先!

      寶哥精彩賽事
      2026-05-11 02:31:34
      尼爾·羅伯遜炮轟世界斯諾克巡回賽名人堂最新入選名單,“這太荒謬了”

      尼爾·羅伯遜炮轟世界斯諾克巡回賽名人堂最新入選名單,“這太荒謬了”

      寶哥精彩賽事
      2026-05-10 18:00:46
      西班牙、英國宣布發(fā)現(xiàn)漢坦病毒疑似病例,張文宏最新發(fā)聲

      西班牙、英國宣布發(fā)現(xiàn)漢坦病毒疑似病例,張文宏最新發(fā)聲

      21世紀經(jīng)濟報道
      2026-05-10 09:45:48
      斷交公告!

      斷交公告!

      秦皇島發(fā)布
      2026-05-09 18:48:36
      顏寧不懂為何網(wǎng)友質疑她嗎?其實她心里很清楚,只是不愿接受

      顏寧不懂為何網(wǎng)友質疑她嗎?其實她心里很清楚,只是不愿接受

      明眼人談教育
      2026-05-10 08:30:03
      2026-05-11 05:36:49
      人生就是要簡單
      人生就是要簡單
      感謝關注
      656文章數(shù) 182關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      特朗普看完伊朗回應發(fā)帖:不喜歡 完全不可接受

      頭條要聞

      特朗普看完伊朗回應發(fā)帖:不喜歡 完全不可接受

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業(yè)了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經(jīng)要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      藝術
      房產(chǎn)
      數(shù)碼
      教育
      手機

      藝術要聞

      這些美人體攝影,簡直美得讓人窒息!

      房產(chǎn)要聞

      低價甩賣!??谶@個地標商業(yè),無人接盤!

      數(shù)碼要聞

      你昂貴的DDR5內(nèi)存可能是假貨:穿著三星的馬甲 心里卻是SK海力士

      教育要聞

      高考地理中的共享經(jīng)濟

      手機要聞

      OPPO Reno16系列參數(shù)全曝光,就差價格了

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品不卡一区二区| 大学生久久香蕉国产线看观看| 无码专区亚洲综合另类| 人妻AV无码AV中文AV日韩AV| 欧美亚洲自偷自拍 在线| 欧美肉大捧一进一出免费视频| A片精品| 久久久国产99久久国产久一| 国产日产亚洲欧美综合另类| 日本丰满熟妇bbxbbxhd| 欧美极品色午夜在线视频| 91露脸| 6699嫩草久久久精品影院| 久久精品国产亚洲AV无码不| 婷婷久久综合九色综合97最多收藏| 97色伦97色伦国产| 99久久精品国产一区二区蜜芽| Chinese91视频在线观看| 国产AV影片麻豆精品传媒| 中文字幕?国产主播?一区?二区?三区| 日韩中文网| 亚洲天堂网视频| 日日摸夜夜摸狠狠摸婷婷| 午夜不卡av免费| 国产suv精品一区二区33| 国产精品成人av片免费看| 国产精品亚洲片夜色在线| 国产免费网址| 欧美顶级少妇作爱| 欧美福利视频导航| 在线天堂最新版资源| 中文字幕亚洲欧美日韩在线不卡| 中日韩亚洲人成无码网站| 亚洲AV伊人久久综合密臀性色| 蜜桃av久久久一区二区三区麻豆 | 无码中| 免费爆乳精品一区二区| 欧美久久久精品中文字幕| 久在线精品视频线观看| jiZZjiZZ欧美69| 欧美freesex黑人又粗又大|