<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      大模型解剖圖火了,30多個開源模型架構差異一目了然,還可接入AI

      0
      分享至

      2026 年的前兩個月,開源大模型的發(fā)布節(jié)奏已快至令人應接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智譜 AI 的 GLM-5、Cohere 的 Tiny Aya……它們的名稱如流水般接踵而至,參數量從 3B 至 1T 不等,每一款都宣稱是“SOTA”或者“最強開源”。

      然而,如此快的更新速度,對于普通開發(fā)者而言,莫說深入研究,僅僅是分辨區(qū)別就已經耗費大量精力。更不用提許多技術報告的表述含糊,架構圖繪制風格各異,想要進行橫向對比十分困難。

      為了解決這些問題,一個名為“LLM Architecture Gallery”(大語言模型架構畫廊)的項目上線了。顧名思義,就是讓你像逛“畫廊”一樣,瀏覽不同模型的架構圖。


      (來源:X)

      這個項目的作者是 Sebastian Raschka,是機器學習領域的知名研究者,寫過《Python Machine Learning》和《Build a Large Language Model (From Scratch)》這兩本深受歡迎的專業(yè)書籍。


      (來源:Sebastian Raschka.com)

      他把過去幾個月撰寫的兩篇長文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中繪制的所有架構圖抽取出來,用統一的視覺語言重新呈現,集中放在一個頁面上。點擊任意一張圖可以放大,每張圖下方附帶一份“規(guī)格表”,列出模型的參數量、發(fā)布時間、注意力機制類型等關鍵信息。想深入某個模型,可以點開“view in article”頁面會直接跳轉到原文對應章節(jié)。


      (來源:LLM Architecture Gallery)

      項目上線幾小時后,Andrej Karpathy 在 X 上回復了 Raschka 的推文:“太好了!我的自動研究功能很需要這個內容的 Markdown 版本——一個創(chuàng)意池。”他最近發(fā)布的 autoresearch 項目:一個讓 AI 自主跑實驗的開源工具,正需要這類結構化的架構信息作為創(chuàng)意來源。

      Raschka 也很快作出回復,并提供了 YAML 格式的元數據 GitHub 鏈接。Karpathy 隨后表示他已經用 Obsidian 把博客文章導出成 markdown,并且“輸入到了 autoresearch 循環(huán)中”。一個本意是方便人類閱讀的架構圖集,就這樣被接入了 AI 自動化研究的工作流。


      (來源;X)

      就在今天,這個項目也沖上了 Hacker News 首頁。一位用戶評論說:“這讓我想起了當年的 Neural Network Zoo,也是用可視化的方式展示不同架構。”也有人繼續(xù)幫忙優(yōu)化細節(jié):“能不能按時間排序,畫出架構演化的家譜樹?能不能加一個比例視圖,讓參數量的差異在視覺上直觀可感?”對于這些建議,Sebastian 表示他后續(xù)會持續(xù)完善。

      回到項目本身,目前,這份圖集收錄了三十多個模型架構,從 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有圖都按同一套視覺規(guī)范繪制:配色、圖例、字體統一,DeepSeek V3 和 Qwen3 235B-A22B 被放在一起時,你一眼就能看出前者用了 MLA(Multi-Head Latent Attention,多頭潛在注意力),后者用的是 GQA(Grouped-Query Attention,分組查詢注意力);DeepSeek V3 有一個“共享專家”模塊,Qwen3 沒有。

      這類信息原本散落在幾十頁技術報告的不同角落,現在被壓縮成一張對比圖。

      MoE(Mixture-of-Experts,混合專家模型)是 2025 年開源 LLM 的主旋律。所有主流的前沿開放權重模型都采用了這種架構。傳統的“稠密”Transformer 會在每次生成 token 時激活全部參數,參數越多,算力成本越高。而 MoE 把參數分成若干“專家”,每次只激活其中一部分。DeepSeek V3 名義上有 6,710 億參數,但實際運行時只激活 370 億;Llama 4 Maverick 號稱 4,000 億參數,激活的只有 170 億。

      Raschka 在圖集中把各模型的專家數量、激活比例、專家隱藏層尺寸都標注出來,讓稀疏程度一目了然。Hacker News 上有人感慨:“我很驚訝這些模型在結構上有多相似,主要差異就是層的大小。”

      另一位用戶則看出了一些端倪,辣評“過去七年,LLM 架構有很多改進,但沒有根本性的創(chuàng)新。今天最好的開放權重模型,如果你縮遠了看,仍然很像 GPT-2,就是一堆注意力層和前饋層堆起來。”

      這可以說是一個重要的觀察。LLM 能力的驚人提升,更多來自訓練方法的革新。比如 RLVR(Reinforcement Learning with Verifiable Rewards,可驗證獎勵的強化學習),而不是架構本身的突破。架構層面的優(yōu)化,更多是為了讓訓練和推理更高效、成本更低,而不是讓模型根本上更聰明。理解這一點,對選型和預期管理都有幫助。

      最后總結一下,這個大模型架構的圖集的實際用法很簡單。

      首先,你可以把它當作速查手冊:想知道 Qwen3 和 DeepSeek V3 在注意力機制上有什么區(qū)別?打開頁面,找到兩張圖,直接對比。規(guī)格表里會告訴你 Qwen3 用 GQA,DeepSeek V3 用 MLA;前者沒有共享專家,后者有。

      其次,每張架構圖都鏈接到 Raschka 原文中的對應章節(jié),如果你想深入了解某個技術細節(jié):比如 QK-Norm(一種應用于查詢和鍵向量的歸一化技術)是什么、為什么能穩(wěn)定訓練,點進去就能讀到解釋。

      第三,圖集附帶一份“概念速查”,解釋 GQA、MLA、SWA(Sliding Window Attention,滑動窗口注意力)、NoPE(No Positional Encoding,無位置編碼)、Gated DeltaNet 等術語,適合快速補課。

      并且,正如 Karpathy 的用法所示,這份圖集的價值不僅在于人類可讀,還在于它的結構化程度足以被機器解析。Raschka 在 GitHub 上提供了 YAML 格式的元數據,包含每個模型的參數量、發(fā)布日期、技術報告鏈接、注意力類型等字段。如果你想寫腳本批量分析這些模型的共性和差異,或者像 Karpathy 那樣把它們喂給 AI 做自動化研究,這份元數據是現成的起點。

      Raschka 還把整套架構圖打包成一個超高分辨率的 PNG 文件(56M,182 百萬像素,上傳到 Zazzle,可以直接下單打印成實體海報。他自己也訂了一張,但“還沒收到貨,暫時不能保證印刷質量”。頁面底部留了一個 Issue Tracker 鏈接,歡迎任何人提交糾錯或建議。

      對于正在選型的工程師來說,這份圖集的價值在于節(jié)省時間。你不用再翻幾十頁技術報告去找一個數字,也不用自己畫對比表格。對于想搞懂“這些模型到底在結構上有什么區(qū)別”的研究者來說,統一的視覺語言讓跨模型對比成為可能。

      1.項目地址:https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

      2.開發(fā)者主頁:https://x.com/rasbt/status/2033167146302210058

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      許家印認罪10天后,“保護傘”終于被扒出,誰都別想跑!

      許家印認罪10天后,“保護傘”終于被扒出,誰都別想跑!

      歷史偉人錄
      2026-05-08 17:54:57
      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      火山詩話
      2026-05-08 21:39:02
      無人機失控墜落與列車相撞致63趟列車晚點!公安部公布典型案例

      無人機失控墜落與列車相撞致63趟列車晚點!公安部公布典型案例

      新京報
      2026-05-09 10:01:05
      3名IS新娘落地澳洲便被逮捕!現場爆發(fā)激烈沖突

      3名IS新娘落地澳洲便被逮捕!現場爆發(fā)激烈沖突

      澳洲紅領巾
      2026-05-08 15:32:35
      舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

      舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

      可達鴨面面觀
      2026-05-07 13:03:19
      鄰居闖進家中求助,男子為保護兒子婉拒,雙方互留書信道歉,一個說請原諒一個說很愧疚

      鄰居闖進家中求助,男子為保護兒子婉拒,雙方互留書信道歉,一個說請原諒一個說很愧疚

      瀟湘晨報
      2026-05-08 19:19:25
      世乒賽四強全出爐:國乒女隊將戰(zhàn)羅馬尼亞,男團對陣法國隊

      世乒賽四強全出爐:國乒女隊將戰(zhàn)羅馬尼亞,男團對陣法國隊

      全景體育V
      2026-05-09 05:22:42
      剛剛,一個賣掃地機的,把整個汽車圈整不會了

      剛剛,一個賣掃地機的,把整個汽車圈整不會了

      道哥說車
      2026-05-08 10:10:00
      廣東人打廣東人!中國最慘烈的漢族民系內戰(zhàn),為什么發(fā)生在廣東?

      廣東人打廣東人!中國最慘烈的漢族民系內戰(zhàn),為什么發(fā)生在廣東?

      環(huán)球情報員
      2026-05-08 15:12:22
      騎士消息:哈登低迷原因曝光,名宿痛批莫布利,G3出場更新

      騎士消息:哈登低迷原因曝光,名宿痛批莫布利,G3出場更新

      冷月小風風
      2026-05-09 09:50:33
      人民日報平安校園發(fā)聲后也被刪帖?海參崴事件正在考驗我們的底線

      人民日報平安校園發(fā)聲后也被刪帖?海參崴事件正在考驗我們的底線

      迷世書童H9527
      2026-05-09 08:46:58
      10萬訂單:比亞迪大唐捅穿了純電大七座SUV那層沒人敢碰的窗戶紙

      10萬訂單:比亞迪大唐捅穿了純電大七座SUV那層沒人敢碰的窗戶紙

      電科技網
      2026-05-08 14:45:22
      國乒幕后功臣浮出水面!能戰(zhàn)勝韓國有原因,王皓躲過一劫太幸運

      國乒幕后功臣浮出水面!能戰(zhàn)勝韓國有原因,王皓躲過一劫太幸運

      三十年萊斯特城球迷
      2026-05-08 22:57:55
      無錫市一游樂場發(fā)生一起腳踏風車船側翻事故,調查報告公布:涉事游船不合格,3人被刑事拘留,4名公職人員被處理

      無錫市一游樂場發(fā)生一起腳踏風車船側翻事故,調查報告公布:涉事游船不合格,3人被刑事拘留,4名公職人員被處理

      極目新聞
      2026-05-09 08:12:25
      氣象專家回應“史上最熱夏天”傳言:2026年夏季或“相對偏熱、高溫天氣多、體感階段性較差”,南方和新疆更明顯,但并非“災難級夏天”

      氣象專家回應“史上最熱夏天”傳言:2026年夏季或“相對偏熱、高溫天氣多、體感階段性較差”,南方和新疆更明顯,但并非“災難級夏天”

      極目新聞
      2026-05-09 09:22:36
      瘋狂一夜:利雅得新月逆襲奪冠,多特蒙德3-2險勝,朗斯絕殺南特

      瘋狂一夜:利雅得新月逆襲奪冠,多特蒙德3-2險勝,朗斯絕殺南特

      足球狗說
      2026-05-09 05:13:46
      香港18歲男子弒父傷母,稱“父母是外星奸細必須鏟除”,被判終身監(jiān)禁

      香港18歲男子弒父傷母,稱“父母是外星奸細必須鏟除”,被判終身監(jiān)禁

      南方都市報
      2026-05-08 23:18:01
      賀子珍的弟弟被槍斃,行刑前大喊被冤枉,毛澤東得知后態(tài)度如何?

      賀子珍的弟弟被槍斃,行刑前大喊被冤枉,毛澤東得知后態(tài)度如何?

      歷史龍元閣
      2026-05-08 08:50:16
      衡水中學的清北人數徹底崩了!巔峰期275人,跌至2025年的45人…

      衡水中學的清北人數徹底崩了!巔峰期275人,跌至2025年的45人…

      火山詩話
      2026-05-08 17:44:41
      中東局勢進入戰(zhàn)和轉換關鍵階段,美國和伊朗相互試探韌性

      中東局勢進入戰(zhàn)和轉換關鍵階段,美國和伊朗相互試探韌性

      澎湃新聞
      2026-05-08 17:48:29
      2026-05-09 10:27:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16676文章數 514936關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      媒體:沙特被美國激怒 海灣國家或將深化與中國關系

      頭條要聞

      媒體:沙特被美國激怒 海灣國家或將深化與中國關系

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      白宮:特朗普計劃5月14日至15日訪問中國

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態(tài)度原創(chuàng)

      家居
      旅游
      本地
      教育
      軍事航空

      家居要聞

      流動的尺度 打破家的形式主義

      旅游要聞

      花香漫冰城

      本地新聞

      用蘇繡的方式,打開江西婺源

      教育要聞

      這些專業(yè)持續(xù)火爆,底層邏輯是什么?

      軍事要聞

      美伊突然再次交火 伊朗外長:戰(zhàn)爭準備程度是1000%

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品一区二区插插插| 精品尤物国产尤物在线看| 午夜美女裸体福利视频| 五月天成人社区| 欧美国产日韩在线三区| 石渠县| 理论片87福利理论电影| 男女18禁啪啪无遮挡激烈网站| 国产精品一卡二卡三卡| 福利片91| 青青草91视频| 亚洲男人天堂| 国产午夜福利片1000无码| 国产视频入口| 3P在线| 午夜福利在线观看入口| 和顺县| 视频二区中文字幕在线| 亚洲黑人av| 久久久噜噜噜WWW成人网| 97一期涩涩97片久久久久久久| 亚洲国产午夜精品福利| 亚洲午夜天堂| 无码人妻精品一| 天堂三级成人久久av| 欧美三级自拍| 艳妇乳肉豪妇荡乳在线观看| 欧美噜噜久久久xxx| 婷婷色色五月天| 久久99热这里只有精品免费看 | 成人网站在线| 亚洲网综合| 美女露出奶头扒开尿口视频直播| 樱花AV在线无码| 性色午夜视频免费男人的天堂| 国产最新AV在线播放不卡| 国产熟女网站| 女人爽到高潮免费看视频| 美女高潮黄又色高清视频免费 | 少妇放荡的呻吟干柴烈火动漫| 偷拍激情视频一区二区三区|