網易首頁 > 網易號 > 正文申請入駐

大模型解剖圖火了，30多個開源模型架構差異一目了然，還可接入AI

2026-03-16 17:33:15　來源: DeepTech深科技

北京舉報

分享至

2026 年的前兩個月，開源大模型的發(fā)布節(jié)奏已快至令人應接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智譜 AI 的 GLM-5、Cohere 的 Tiny Aya……它們的名稱如流水般接踵而至，參數量從 3B 至 1T 不等，每一款都宣稱是“SOTA”或者“最強開源”。

然而，如此快的更新速度，對于普通開發(fā)者而言，莫說深入研究，僅僅是分辨區(qū)別就已經耗費大量精力。更不用提許多技術報告的表述含糊，架構圖繪制風格各異，想要進行橫向對比十分困難。

為了解決這些問題，一個名為“LLM Architecture Gallery”(大語言模型架構畫廊)的項目上線了。顧名思義，就是讓你像逛“畫廊”一樣，瀏覽不同模型的架構圖。

（來源：X）

這個項目的作者是 Sebastian Raschka，是機器學習領域的知名研究者，寫過《Python Machine Learning》和《Build a Large Language Model (From Scratch)》這兩本深受歡迎的專業(yè)書籍。

（來源：Sebastian Raschka.com）

他把過去幾個月撰寫的兩篇長文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中繪制的所有架構圖抽取出來，用統一的視覺語言重新呈現，集中放在一個頁面上。點擊任意一張圖可以放大，每張圖下方附帶一份“規(guī)格表”，列出模型的參數量、發(fā)布時間、注意力機制類型等關鍵信息。想深入某個模型，可以點開“view in article”頁面會直接跳轉到原文對應章節(jié)。

（來源：LLM Architecture Gallery）

項目上線幾小時后，Andrej Karpathy 在 X 上回復了 Raschka 的推文：“太好了！我的自動研究功能很需要這個內容的 Markdown 版本——一個創(chuàng)意池。”他最近發(fā)布的 autoresearch 項目：一個讓 AI 自主跑實驗的開源工具，正需要這類結構化的架構信息作為創(chuàng)意來源。

Raschka 也很快作出回復，并提供了 YAML 格式的元數據 GitHub 鏈接。Karpathy 隨后表示他已經用 Obsidian 把博客文章導出成 markdown，并且“輸入到了 autoresearch 循環(huán)中”。一個本意是方便人類閱讀的架構圖集，就這樣被接入了 AI 自動化研究的工作流。

（來源；X）

就在今天，這個項目也沖上了 Hacker News 首頁。一位用戶評論說：“這讓我想起了當年的 Neural Network Zoo，也是用可視化的方式展示不同架構。”也有人繼續(xù)幫忙優(yōu)化細節(jié)：“能不能按時間排序，畫出架構演化的家譜樹？能不能加一個比例視圖，讓參數量的差異在視覺上直觀可感？”對于這些建議，Sebastian 表示他后續(xù)會持續(xù)完善。

回到項目本身，目前，這份圖集收錄了三十多個模型架構，從 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有圖都按同一套視覺規(guī)范繪制：配色、圖例、字體統一，DeepSeek V3 和 Qwen3 235B-A22B 被放在一起時，你一眼就能看出前者用了 MLA（Multi-Head Latent Attention，多頭潛在注意力），后者用的是 GQA（Grouped-Query Attention，分組查詢注意力）；DeepSeek V3 有一個“共享專家”模塊，Qwen3 沒有。

這類信息原本散落在幾十頁技術報告的不同角落，現在被壓縮成一張對比圖。

MoE（Mixture-of-Experts，混合專家模型）是 2025 年開源 LLM 的主旋律。所有主流的前沿開放權重模型都采用了這種架構。傳統的“稠密”Transformer 會在每次生成 token 時激活全部參數，參數越多，算力成本越高。而 MoE 把參數分成若干“專家”，每次只激活其中一部分。DeepSeek V3 名義上有 6,710 億參數，但實際運行時只激活 370 億；Llama 4 Maverick 號稱 4,000 億參數，激活的只有 170 億。

Raschka 在圖集中把各模型的專家數量、激活比例、專家隱藏層尺寸都標注出來，讓稀疏程度一目了然。Hacker News 上有人感慨：“我很驚訝這些模型在結構上有多相似，主要差異就是層的大小。”

另一位用戶則看出了一些端倪，辣評“過去七年，LLM 架構有很多改進，但沒有根本性的創(chuàng)新。今天最好的開放權重模型，如果你縮遠了看，仍然很像 GPT-2，就是一堆注意力層和前饋層堆起來。”

這可以說是一個重要的觀察。LLM 能力的驚人提升，更多來自訓練方法的革新。比如 RLVR（Reinforcement Learning with Verifiable Rewards，可驗證獎勵的強化學習），而不是架構本身的突破。架構層面的優(yōu)化，更多是為了讓訓練和推理更高效、成本更低，而不是讓模型根本上更聰明。理解這一點，對選型和預期管理都有幫助。

最后總結一下，這個大模型架構的圖集的實際用法很簡單。

首先，你可以把它當作速查手冊：想知道 Qwen3 和 DeepSeek V3 在注意力機制上有什么區(qū)別？打開頁面，找到兩張圖，直接對比。規(guī)格表里會告訴你 Qwen3 用 GQA，DeepSeek V3 用 MLA；前者沒有共享專家，后者有。

其次，每張架構圖都鏈接到 Raschka 原文中的對應章節(jié)，如果你想深入了解某個技術細節(jié)：比如 QK-Norm（一種應用于查詢和鍵向量的歸一化技術）是什么、為什么能穩(wěn)定訓練，點進去就能讀到解釋。

第三，圖集附帶一份“概念速查”，解釋 GQA、MLA、SWA（Sliding Window Attention，滑動窗口注意力）、NoPE（No Positional Encoding，無位置編碼）、Gated DeltaNet 等術語，適合快速補課。

并且，正如 Karpathy 的用法所示，這份圖集的價值不僅在于人類可讀，還在于它的結構化程度足以被機器解析。Raschka 在 GitHub 上提供了 YAML 格式的元數據，包含每個模型的參數量、發(fā)布日期、技術報告鏈接、注意力類型等字段。如果你想寫腳本批量分析這些模型的共性和差異，或者像 Karpathy 那樣把它們喂給 AI 做自動化研究，這份元數據是現成的起點。

Raschka 還把整套架構圖打包成一個超高分辨率的 PNG 文件（56M，182 百萬像素，上傳到 Zazzle，可以直接下單打印成實體海報。他自己也訂了一張，但“還沒收到貨，暫時不能保證印刷質量”。頁面底部留了一個 Issue Tracker 鏈接，歡迎任何人提交糾錯或建議。

對于正在選型的工程師來說，這份圖集的價值在于節(jié)省時間。你不用再翻幾十頁技術報告去找一個數字，也不用自己畫對比表格。對于想搞懂“這些模型到底在結構上有什么區(qū)別”的研究者來說，統一的視覺語言讓跨模型對比成為可能。

1.項目地址：https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

2.開發(fā)者主頁：https://x.com/rasbt/status/2033167146302210058

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.