<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      百萬上下文之后,拼什么?

      0
      分享至

      文|科技不許冷

      過去幾天,科技圈的視線全被DeepSeek吸走了。

      滿屏都是傳聞中的估值溢價,或者是跟各類國產算力芯片的適配通稿。市場的狂熱情緒,很容易讓人迷失在龐大的數字迷宮里。大眾的關注點,要么是"百萬上下文"這個聽起來很唬人的標簽,要么是跑分榜單上"誰又贏了誰零點幾分"的算術題。

      DeepSeek V4-Pro的分數確實好看。從其技術報告披露的底牌來看,在SimpleQA-Verified測試中,它以20個絕對百分點的優勢甩開了所有開源對手;在Codeforces代碼競賽里,預期評分直接追平了GPT-5.4。當然,在世界知識的廣度上,它依然略遜于Gemini-3.1-Pro;遇到極高難度的復雜任務,跟Claude Opus 4.6也還有微小的身位差。

      但這都不重要。

      如果你只盯著榜單排名,就完全看漏了這家機構真正的野心。

      DeepSeek根本不是在發布一個用來刷榜的模型參數包。它實際上是在一點點拆開"百萬上下文"這件事的底座。

      大模型的戰爭,已經從模型層退場,全面接管系統層。

      過去幾年,行業都在拼腦容量。比誰的參數多,比誰跑分高。但這套玩法到頭了。V4的出現,是在定義一套新規矩:模型本身,只是高效工程系統自然結出的一個副產品。

      當1M上下文變成所有官方服務的出廠默認值時,從其開源實現中可以清晰地看到一個事實:這絕對不是靠算力硬堆出來的。長文本時代的下半場,拼的從來不是智商。

      而是機房調度能力。

      13B激活參數,把37B按在地上

      調度能力從哪看出來?先看V4最反直覺的一個設計:Pro和Flash的共生關系。

      行業里一看到"Pro"和"Flash",第一反應就是精準刀法:Pro用來打標桿,Flash用來做下沉市場,收割中小企業。

      這種典型的商業包裝邏輯,放在V4身上,看偏了。這兩者根本不是算力降級關系,而是驗證同一套底層邏輯的對照組。

      大模型過去的長文本能力,本質上是用顯存硬堆出來的偽能力。只要給的GPU夠多,顯存夠大,不管多長的文本都能硬吞下去。但代價是,成本高到根本沒法在真實的商業環境里鋪開。

      V4-Pro以1.6T的總參數和49B的激活參數把容量拉到了頂。但真正的大招,是那個只有284B總參數、13B激活參數的V4-Flash。


      文檔里的一個數據直接戳破了行業的窗戶紙:在大量極具挑戰性的測試中,只有13B激活參數的Flash-Base,直接超越了上一代37B激活參數的V3.2-Base。

      13B的極小激活代價,絕不是能力縮水,而是一次底層的效率重構。Flash的意義,不是為了證明它能有多省錢,而是為了證明"算力霸權是可以被架構重構打破的"。

      參數規模,已經徹底失去決定性意義。

      調度能力,正在取代參數,成為新的主戰場。這讓百萬上下文不再是高階英偉達集群的專屬玩具,國產芯片也能順暢地接管戰局。未來開源模型的分水嶺,不再是看誰的底座大,而是看誰能用十分之一的力氣干同樣的活。

      專家和稀泥,不如各管一段

      硬件效率是一面,另一面是軟件效率。V4在'后訓練'階段也換了一條路。

      大模型的"后訓練"階段,過去一直走在一條死胡同里。

      行業慣用的混合強化學習(Mixed RL),說的直白點,就是和稀泥。如果你想讓模型既懂微積分,又會寫C++,還能做日常規劃時,傳統的做法是把所有的參數強行往中間捏。結果就是"向均值回歸"。

      強行捏在一起,特化能力全磨平了,最終只會均值化成平庸的通才。

      V4換了一條路。不是改良,是徹底換道。技術報告里交代了新解法:先獨立培養專家。數學專家就只管算數,代碼專家就只管編程。把單一維度的能力拉到滿。

      關鍵在于最后怎么合并。V4不用業內泛濫的參數平均法,而是用了同策略蒸餾(OPD)。

      傳統的權重合并是一種靜態妥協,而OPD是一場動態接管。

      統一模型在自己生成軌跡時,遇到數學題,系統就精準引入數學專家的梯度來指路;遇到寫代碼,就無縫切給代碼專家。大家各司其職,不在參數層面打架。

      順著這條線往下看,V4應用端那個很火的"三種推理模式"(無思考、高強度思考、極限思考),根本不是加了個UI按鈕那么簡單。它是OPD機制在產品端的直接變現。


      在極限思考模式下,底層提示詞會強制模型去分解問題、窮盡邊緣情況。這種極其固執的死磕行為,恰恰是在OPD階段,在"數學專家"和"編程專家"的高強度捶打下固化下來的本能。

      OPD不搞平均。遇到數學題,接數學專家;遇到代碼,接代碼專家。各管一段,不在參數層面打架。

      Agent跑了三小時,不能失憶

      換完訓練方法,換應用場景,長上下文到底能干嘛?

      如果只是為了在十萬字的研報里找一句話,那不叫長上下文,那叫高級檢索。真實的商業場景里,Agent要替你重構代碼、跨系統驗證數據、甚至跑一整晚的流程。

      在這個過程里,最致命的問題是"失憶"。

      V3.2有個讓工程師極其頭疼的痛點:新消息一進來,模型之前的思考痕跡直接清空。普通聊天這么干沒問題,省資源。但如果是跑了三個小時的Agent任務,半路插進去一句話,模型腦子一白,整個狀態全部丟失,得從頭算。

      這種鏈條斷裂,在實際業務中直接接不住。

      V4給出的方案是"交織思考"。邏輯很冷酷,分場景算賬。


      只要是帶工具調用的長程場景,跨越消息邊界,推理鏈條完整保留。如果是閑聊,繼續清空,絕不多浪費一丁點算力。模型開始真正懂得"在什么場合,該記住什么"。

      更絕的是它的快速指令(Quick Instruction)。

      以前行業里做意圖識別,都習慣在外面掛個小模型。這意味著每次有新請求進來,不管長短,系統都得把用戶的提示詞重新嚼一遍。這本質上是在白白浪費預填充計算。

      V4沒這么干。從其開源代碼中可見:直接在輸入序列末尾插幾個隱式指令。主模型之前算好的海量特征(KV Cache),直接復用。

      長上下文的核心問題,從來不是"記得多",而是"算得起"。

      這其實就是粗暴地砍掉了一次冗余的預填充計算。行業默認一個功能配一個小模型,V4用行動證明:不用。KV Cache復用吃透了,長程Agent才能跑起來。

      完全緩存、定期存、不存,都疼

      能跑不代表能賣。

      第17頁有個細節,自動生成的kernel,跟手寫CUDA逐位比對。不是差不多,是每一位都一樣。這種工程潔癖,業務里少見。有這底線,才敢算部署賬。


      高并發的百萬上下文,拼的根本不是大模型懂不懂人類,拼的是你懂不懂硬件的物理極限在哪。


      文檔里三種調度策略都列出來了,沒有藏著掖著,全是取舍。

      想追求計算零冗余?上"完全緩存"。但代價是,固態硬盤的I/O通道可能在幾秒鐘內被高頻寫入直接擠爆。

      想保護硬盤?上"定期檢查點"。隔一段距離存一次。硬盤保住了,但GPU得時不時騰出算力來給丟失的尾部數據擦屁股。

      要是干脆不上物理硬盤緩存呢?那就選"零緩存"。省下全部存儲帶寬,全靠長程特征做錨點,碰到問題GPU現場硬算。

      這三條路,哪條都不是完美的。這本質上就是一場關于硬件壽命、并發峰值和用戶延遲容忍度之間的極限算賬。它把冷冰冰的現實擺在所有人面前:AI早已不是單純的算力密集型產業,它正在加速變成調度密集型產業。

      看DeepSeek V4,如果還停留在跑分榜上,那就連門檻都沒摸到。

      OPD的能力動態接管,交織思考的記憶保留,砍掉預填充的快速指令,還有那些把硬盤和顯存算計到骨頭里的落盤策略。

      這些枯燥的細節,其實是一根線上的螞蚱。

      大模型在變。

      不再是陪聊的玩具。

      而是開始接管真實世界的業務鏈條。

      DeepSeek不是在賭未來,它是在建機房。外界還在聊分數,分數只是機房運轉時的副產品。

      當對手還在為跑分榜上的零點幾分沾沾自喜、向市場炫耀那幾百億參數時,DeepSeek已經在算每百萬Token的電費。

      戰局已經很清晰了:

      下一場長文本戰爭,決勝點不是智商,是機房成本。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      魏征告老還鄉,半路被山賊搶劫,他只問了一句,山賊嚇得當場下跪

      魏征告老還鄉,半路被山賊搶劫,他只問了一句,山賊嚇得當場下跪

      史行途
      2026-05-06 21:47:13
      雷軍與馬斯克合影為何引發爭議

      雷軍與馬斯克合影為何引發爭議

      次元君情感
      2026-05-15 12:11:28
      53歲于和偉暴瘦20斤染白發,這狠勁誰敢不服?

      53歲于和偉暴瘦20斤染白發,這狠勁誰敢不服?

      情感大頭說說
      2026-05-15 00:37:07
      王楚欽風波升級!官媒發文批評,言辭犀利,難怪國家體育總局出手

      王楚欽風波升級!官媒發文批評,言辭犀利,難怪國家體育總局出手

      阿鳧愛吐槽
      2026-05-14 21:26:37
      波音拿到中國訂單,股價為何反跌4%

      波音拿到中國訂單,股價為何反跌4%

      摸魚算法
      2026-05-15 02:34:19
      公牛籃網想挖湖人墻角!里夫斯爭奪戰打響,截胡年薪至少4000萬

      公牛籃網想挖湖人墻角!里夫斯爭奪戰打響,截胡年薪至少4000萬

      奕辰說球
      2026-05-15 10:55:56
      違法徒步穿越臥龍保護區,2人被依法處罰

      違法徒步穿越臥龍保護區,2人被依法處罰

      澎湃新聞
      2026-05-15 06:14:12
      從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

      從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

      北緯的咖啡豆
      2026-05-15 09:45:32
      曝央視與國際足聯談判成功,價格相對合理,將于近日簽約

      曝央視與國際足聯談判成功,價格相對合理,將于近日簽約

      塵語者
      2026-05-15 11:20:11
      10個月建成人民大會堂,毛主席參觀時一直盯著穹頂,笑問:誰想的

      10個月建成人民大會堂,毛主席參觀時一直盯著穹頂,笑問:誰想的

      浩渺青史
      2026-05-06 16:57:17
      美國人的覺醒:與中國人相比,我們過著狗屎般的生活?

      美國人的覺醒:與中國人相比,我們過著狗屎般的生活?

      老謝談史
      2026-04-08 22:56:46
      地主惡霸劉文彩:子孫眾多,后代回來祭拜,光飯菜就準備了200席

      地主惡霸劉文彩:子孫眾多,后代回來祭拜,光飯菜就準備了200席

      阿器談史
      2026-05-11 15:43:13
      北京成了世界的心臟!特朗普剛落地,俄羅斯專機也到了

      北京成了世界的心臟!特朗普剛落地,俄羅斯專機也到了

      虔青
      2026-05-15 11:59:49
      知名女主持人自曝痛到當場求饒,要求立即終止!醫生提醒:這些人不要盲目跟風

      知名女主持人自曝痛到當場求饒,要求立即終止!醫生提醒:這些人不要盲目跟風

      上海約飯局
      2026-05-13 15:05:22
      重慶觀音橋偶遇明星錄綜藝,方媛雖然不高但好漂亮伊能靜兒子好帥

      重慶觀音橋偶遇明星錄綜藝,方媛雖然不高但好漂亮伊能靜兒子好帥

      陳意小可愛
      2026-05-15 00:07:23
      當著中方所有代表的面,特朗普直言:美國中餐館比五大快餐店還多

      當著中方所有代表的面,特朗普直言:美國中餐館比五大快餐店還多

      軍武咖
      2026-05-15 12:05:48
      對象當初是這么把我騙到手的,網友:評論區個個都是高手啊

      對象當初是這么把我騙到手的,網友:評論區個個都是高手啊

      夜深愛雜談
      2026-05-13 07:37:46
      張藝謀:兩個弟弟都是殘疾人,他超生是為了完成母親的心愿

      張藝謀:兩個弟弟都是殘疾人,他超生是為了完成母親的心愿

      鄉野小珥
      2026-05-15 01:07:30
      50℃的生存考驗:當印度變成“空調外機”,這個國家還能生存多久

      50℃的生存考驗:當印度變成“空調外機”,這個國家還能生存多久

      番外行
      2026-05-15 08:52:52
      基輔大樓被炸塌那一刻,澤連斯基這次真急眼了

      基輔大樓被炸塌那一刻,澤連斯基這次真急眼了

      子桑說
      2026-05-15 10:27:46
      2026-05-15 13:23:00
      藍鯨新聞 incentive-icons
      藍鯨新聞
      財經信息服務平臺
      132726文章數 193881關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛回應住男生單人間:女孩的配得感

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      手機
      本地
      藝術
      數碼
      公開課

      手機要聞

      紅魔11S Pro系列手機搭載8000mAh電池,自帶80W氮化鎵充電器

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術要聞

      一個北大 “反卷教授” 的意外走紅

      數碼要聞

      佰維M560靈梭SSD評測:單面顆粒+5.2W低功耗,筆記本擴容實力之選

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻精品视频| 午夜福利2025| 午夜伦情电午夜伦情电影194| 亚洲欧美v国产一区二区| 免费播放一区二区三区成片| 玩弄少妇高潮ⅹxxxyw| 亚洲精品无码久久久| 视频一区视频二区在线视频| 国产成人污污网站在线观看| 老鲁夜夜老鲁| 国产激情一区二区三区午夜| 国产AV第一页| 九九日日夜夜| 欧美亚洲中文精品三区| 日韩精品亚洲专在线电影| 国产???做受视频| 亚洲VA欧美VA人人爽成| 青青国产成人久久91| 国产成人AV无码精品天堂| WWW.97| 酒店大战丝袜高跟鞋人妻| 朝鲜女人大白屁股ASS孕交| 亚洲妇女水蜜桃av网网站 | 亚洲无码av一区二区| 粗大猛烈进出高潮视频| 人妻蜜臀久久av不卡| 激情网五月| 嘟嘟嘟www在线观看免费高清| 少妇无码太爽了不卡视频在线看| 四虎永久免费网站| 国产高潮流白浆视频| 狠狠88综合久久久久综合网| 国产一区亚洲欧美成人| 九九九999热想热视频| 人妻激情偷乱视频一区二区三区| 久久精品国产精品亚洲蜜月| 麻豆文化传媒精品一区二区| 婷婷五月亚洲综合图区| 少妇伦子伦精品无码styles| 久久熟女| 青青在线视频观看|