<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-V4技術報告暗藏的10個神級彩蛋,“煉丹玄學”也被寫進論文

      0
      分享至



      DeepSeek在“省錢”和“省資源”上達到了變態的程度。

      作者 | 許有陽

      來源 | 盒飯財經(ID:daxiongfan)

      頭圖及封面來源 | 網絡及即夢制作

      DeepSeek-V4總算來了。

      4月24日,DeepSeek官方賬號發布了一篇名為《DeepSeek-V4 預覽版:邁入百萬上下文普惠時代》的文章。文章中正式宣布,“全新系列模型 DeepSeek-V4 的預覽版本正式上線并同步開源。”

      同時,還介紹:DeepSeek-V4 擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。模型按大小分為兩個版本:


      發布后,測評、討論已非常充分,不再贅述。

      盒飯財經關注到,DeepSeek同步發布了一篇關于DeepSeek-V4 技術報告。地址如下:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

      這份名為《DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence》的技術報告,共55頁,從架構、通用基礎設施、預訓練、訓練后等6個部分介紹了V4。而這份高度專業的技術報告中,隱藏了10個有意思的小彩蛋。

      彩蛋一:“Think Max”模式,絕不允許走捷徑的“壓榨”指令

      位置:第30頁,Table 3


      原文為:

      Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking... rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.

      翻譯過來,大概的意思就是:

      推理投入度:絕對最大化,不容許任何捷徑。你的思考必須極其徹底,全面拆解問題以觸及根本原因,并針對所有可能的路徑、邊緣案例及對抗性場景,對你的邏輯進行嚴苛的壓力測試。要明確寫出完整的深思過程,記錄每一個中間步驟、考慮過的替代方案以及被否決的假設,確保絕對沒有任何未經審視的預設。

      這段話是模型開啟 Think Max(極致思考模式)時,后臺偷偷塞給大模型的“系統提示詞(System Prompt)”。寫得極具壓迫感,像是一個嚴厲的導師在逼學生榨干腦力,不準有任何偷懶。

      DeepSeek為其式設定了一套極為嚴苛的系統提示詞。用詞極具壓迫感,還全部使用了絕對祈使句:“絕對最大化”“不許走捷徑”“必須徹底”“嚴酷地壓力測試”“不放過任何一個假設”。它還顯式地命令模型“禁止走捷徑”,要求記錄每一個被拒絕的假設和中間步驟。

      通過這種極度嚴厲的工程化Prompt,榨干大模型在 1M Context(百萬上下文)里的算力去驗證代碼和邏輯錯誤。這就像是給模型戴上了“邏輯緊箍咒”,確保在處理復雜邏輯或代碼時,模型不會因為追求速度而忽略細節。


      彩蛋二:給硬件廠商的“公開信”:別瞎忙活帶寬了

      位置:第16頁,Section 3.1


      原文為:

      Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns. We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.

      意思是:

      一旦帶寬達到該閾值,便不再是瓶頸,此時將更多的芯片面積用于進一步提升帶寬,會帶來邊際收益遞減。我們鼓勵未來的硬件設計瞄準這樣的平衡點,而非一味地無條件擴展帶寬。

      DeepSeek在報告中反客為主,給英偉達和華為等硬件廠商開出了“方子”。體面表達了他們在硬件方面的觀點:盲目提升帶寬對現在的AI訓練效率提升有限,建議廠商把芯片面積留給更能提高計算通信比的地方。


      彩蛋三:極致效率,1M長度下僅需V3.2的10%緩存


      位置:摘要,Abstract


      原文:

      In the one-million-token context setting, DeepSeekV4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.

      意思是:

      在百萬級token上下文設定下,與DeepSeek-V3.2相比,DeepSeek-V4-Pro僅需其27%的單token推理FLOPs,以及10%的KV緩存。

      DeepSeek在“省錢”和“省資源”上達到了變態的程度。

      通過 CSA(壓縮稀疏注意力)和 HCA(重度壓縮注意力)技術,它在處理100萬字的長文本時,占用的內存竟然只有前代版本的十分之一。這意味著未來個人電腦甚至手機運行百萬超長文本分析將成為可能。


      彩蛋四:坦誠的“煉丹玄學”:知其然不知其所以然


      位置:第26頁,Section 4.2.3


      原文為:

      Although a comprehensive theoretical understanding of their underlying mechanisms remains an open question for now, we are sharing them openly to foster further exploration by the community.

      意思是:盡管目前對其底層機制的全面理論理解仍是一個懸而未決的問題,但我們將其公開分享,以推動社區的進一步探索。

      在Mitigating Training Instability 緩解訓練不穩定性章節中,DeepSeek團隊分享了兩個解決萬億參數模型訓練崩潰的獨門絕技,Anticipatory Routing和SwiGLU Clamping。

      技術報告中,他們也非常耿直地承認:這種“雖然我不知道原理是啥,但它跑起來確實有用,大家拿去用吧”的坦誠,可以說是AI煉丹界的真實寫照了,非常有開源精神。


      彩蛋五:“快指令”(Quick Instruction)特供Token


      位置:第33頁,Table 5


      <|action|> (判斷是否搜網), <|title|> (生成標題), <|query|> (生成搜索詞)。

      為了讓Chatbot響應更快,DeepSeek在模型內部植入了一系列專用Token“暗號”。

      V4之所以能這么快,是因為它直接復用了已經算好的長文本 KV Cache(緩存)。不用像以前那樣把幾十萬字重新喂給另一個小模型去判斷,從而徹底消除了“冗余的預填充(redundant prefilling)”,這樣用戶的等待時間就能大幅縮短。


      彩蛋六:Codeforces全球排名第23位

      位置:第39頁,Section 5.3.2


      原文為:On the Codeforces leaderboard, DeepSeek-V4-Pro-Max currently ranks 23rd among human candidates.

      這句話的意思是,在 Codeforces 排行榜上,DeepSeek-V4-Pro-Max 當前在人類參賽者中位列第23名。

      這個“彩蛋”極具含金量。在純人類參與的全球頂級編程競賽Codeforces排名中,DeepSeek-V4的預估分值(3206分)足以排到全球第23名。這意味著它已經超越了絕大多數頂級程序員,進入了人類編程智力的最頂端一小撮。


      彩蛋七:內部“員工大調查”,52%的人已離不開它

      位置:第44頁,Section 5.4.4


      原文為:

      In a survey asking DeepSeek developers and researchers (= 85) — all with experience of using DeepSeek-V4-Pro for agentic coding in their daily work— whether DeepSeek-V4-Pro is ready to serve as their default and primary coding model compared to other frontier models, 52% said yes, 39% leaned toward yes, and fewer than 9% said no.

      翻譯過來是:

      在一項面向DeepSeek開發者和研究人員的調查(N=85)中,這些受訪者均有在日常工作中使用DeepSeek-V4-Pro進行智能體編碼的經驗。當被問及與其他前沿模型相比,DeepSeek-V4-Pro是否已準備好成為他們默認且主要的編程模型時,52%給出了肯定回答,39%傾向于肯定,而表示否定的不足9%。

      DeepSeek非常罕見地公開了公司內部85名頂尖研究員的真實反饋。超過一半的DeepSeek內部核心人員已經將其作為日常首選編程工具。這種“吃自己的狗糧”的行為比跑分數據更能說明模型在實際生產中的情況。


      彩蛋八:內部員工的真實“吐槽”被寫進技術報告

      位置:第44頁,Section 5.4.4


      原文:

      Respondents find DeepSeek-V4-Pro to deliver satisfactory results across most tasks, but note trivial mistakes, misinterpretation of vague prompts, and occasional over-thinking.

      翻譯過來就是:

      受訪者認為DeepSeek-V4-Pro在大多數任務上都能給出令人滿意的結果,但也指出它存在一些細小的錯誤、對模糊提示的理解偏差,以及偶爾的過度思考。

      這句話緊挨著上一條“內部員工調查”的彩蛋,DeepSeek選擇把內部員工的吐槽也寫了進去。


      彩蛋九:接地氣的“中國特色”評測題

      位置:第43頁,Figure 13


      為了展示模型在復雜長文本白領工作中的能力,DeepSeek放出的示例任務非常接地氣。

      “寫一份某知名奶茶品牌與北京地鐵的聯名營銷策劃”“UGC傳播與社交裂變設計”,比起國外大模型測寫全英文的莎士比亞詩歌,DeepSeek的評測題真的很懂國內打工人的日常PPT需求。


      彩蛋十:致謝名單里的神秘測試Dolly Deng


      位置:第55頁,附錄 A.2 致謝部分


      附錄 A.2 致謝(Acknowledgment)部分,除了全體作者外,團隊特別單獨點名感謝了一位非作者人士:“We would like to thank Dolly Deng and other testers for their valuable suggestions and feedback...”

      翻譯過來就是,我們要感謝 Dolly Deng 及其他測試人員,就DeepSeek-V4系列模型的能力所提出的寶貴建議與反饋。

      能在這樣一份AI基礎模型技術報告中被單獨拎出來感謝的測試(或外部反饋者),不知道他在V4內測期間提交了怎樣關鍵的Bug或改進建議。

      歡迎在評論區留言~如需開白請加微信:YPYP01234567

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      越來越多孩子得白血病?醫生坦言:家里4樣東西是禍根,趁早扔了

      越來越多孩子得白血病?醫生坦言:家里4樣東西是禍根,趁早扔了

      DrX說
      2025-11-19 14:42:09
      俄宣發布虛假消息,稱蘇-57戰機在烏克蘭上空擊落薩博-340預警機

      俄宣發布虛假消息,稱蘇-57戰機在烏克蘭上空擊落薩博-340預警機

      走進烏克蘭2022
      2026-05-14 19:48:01
      61歲總裁離婚,持股98%分給前妻,價值1.87億元,自己持股市值只剩359萬元

      61歲總裁離婚,持股98%分給前妻,價值1.87億元,自己持股市值只剩359萬元

      每日經濟新聞
      2026-05-15 19:39:06
      諾蘭新作《奧德賽》最美女人海倫由黑人女星扮演

      諾蘭新作《奧德賽》最美女人海倫由黑人女星扮演

      3DM游戲
      2026-05-15 06:28:12
      涉嫌發布虛假廣告 深圳閃魔數碼科技集團被罰1000元

      涉嫌發布虛假廣告 深圳閃魔數碼科技集團被罰1000元

      信網
      2026-05-14 14:02:27
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      肖茲探秘說
      2026-05-15 13:42:33
      知名主持人暴瘦認不出,五年四次進ICU,病重時前妻分走大半財產

      知名主持人暴瘦認不出,五年四次進ICU,病重時前妻分走大半財產

      聊歷史的阿稼
      2026-05-14 09:57:42
      《風箏》隱藏細節:鄭耀先彌留之際,囑咐周喬去上海找一位老同志

      《風箏》隱藏細節:鄭耀先彌留之際,囑咐周喬去上海找一位老同志

      呆子的故事
      2026-01-15 16:09:55
      75年,譚政入獄第8年,毛主席詢問:那譚政哪里去了,后來如何

      75年,譚政入獄第8年,毛主席詢問:那譚政哪里去了,后來如何

      鶴羽說個事
      2026-05-14 23:07:20
      從絕殺拜仁到無球可踢:22歲天才一年三換門庭,職業生涯跌入谷底

      從絕殺拜仁到無球可踢:22歲天才一年三換門庭,職業生涯跌入谷底

      星耀國際足壇
      2026-05-15 12:09:36
      火箭或再次豪賭!美媒曬6換2交易方案:申京換小卡攜手KD組雙超巨

      火箭或再次豪賭!美媒曬6換2交易方案:申京換小卡攜手KD組雙超巨

      鍋子籃球
      2026-05-15 21:57:04
      女子稱關閉支付功能后,180多萬元凌晨莫名通過支付寶捐給慈善機構;支付寶:賬密是用戶透露出去的

      女子稱關閉支付功能后,180多萬元凌晨莫名通過支付寶捐給慈善機構;支付寶:賬密是用戶透露出去的

      大風新聞
      2026-05-14 18:15:39
      詹姆斯還值頂薪嗎?已有球隊準備報價,湖人或給出2個“誠意”

      詹姆斯還值頂薪嗎?已有球隊準備報價,湖人或給出2個“誠意”

      以茶帶書
      2026-05-14 20:44:24
      奧迪Q9內飾首曝:7座布局+4D音響,比奔馳GLS便宜1萬刀

      奧迪Q9內飾首曝:7座布局+4D音響,比奔馳GLS便宜1萬刀

      字節漫游指南
      2026-05-15 00:01:50
      六小齡童談《西游記》片酬:25集拍了6年,2000塊都不到

      六小齡童談《西游記》片酬:25集拍了6年,2000塊都不到

      環球網資訊
      2026-04-24 14:12:10
      醫生發現:糖尿病病人過了75歲,基本都有這6現狀,要坦然接受

      醫生發現:糖尿病病人過了75歲,基本都有這6現狀,要坦然接受

      冷眼看世界728
      2026-05-15 23:22:06
      爭議拉滿!熱刺追平上賽季積分仍有降級風險,英超保級混戰太瘋狂

      爭議拉滿!熱刺追平上賽季積分仍有降級風險,英超保級混戰太瘋狂

      阿坹武器裝備科普
      2026-05-14 19:20:34
      談判桌上攤牌!美方死咬2500萬噸大豆訂單,想把中國當接盤俠?

      談判桌上攤牌!美方死咬2500萬噸大豆訂單,想把中國當接盤俠?

      故事終將光明磊落
      2026-05-15 10:58:31
      賣家勝訴后強制執行遇困境,河北一法院法警:打九折每月可付200萬,不打折每月付50萬

      賣家勝訴后強制執行遇困境,河北一法院法警:打九折每月可付200萬,不打折每月付50萬

      山西經濟日報
      2026-05-14 10:31:34
      賽季報銷的火箭先發控衛會放棄球員選項并且與球隊商談一份新約?

      賽季報銷的火箭先發控衛會放棄球員選項并且與球隊商談一份新約?

      稻谷與小麥
      2026-05-15 23:16:41
      2026-05-16 00:11:00
      盒飯財經 incentive-icons
      盒飯財經
      約會最好的商業思想
      1321文章數 16880關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      教育
      數碼
      本地
      親子
      公開課

      教育要聞

      七中育才又新增3個校區,個個有來頭

      數碼要聞

      七彩虹2026款iGame M15/M16 Origo筆記本發售,11499元起

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      一起預防老年癡呆

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产av日韩av| 亚洲综合色成在线观看| 欧美性生交大片免费看| 久久人妻无码一区二区| 久久无码精品一区二区三区| 67194熟妇在线观看线路1 | 日韩丨亚洲丨制服|痴汉| 亚洲一区二区三区在线直播| 美女视频在线永久免费观看| 仁寿县| 2024av在线无码中文最新| 少妇高清精品毛片在线视频| av二区三区| 久久婷婷综合色丁香五月| 日韩有码玖玖资源中文字幕人妻不卡| 色色午夜| 欧美人与牲动交xxxx| 性无码专区无码| 无码人妻精品一区二区蜜桃网站| 久久机热| 与子敌伦刺激对白播放| 成a人v欧美综合天堂| 正在播放肥臀熟妇在线视频| 成人午夜高潮免费视频在线观看| 国产成人午夜精品影院| 夜福利导航| 久久婷婷热| 国产精品视频第一专区| 亚洲国产精品尤物YW在线| 波多野结衣爽到高潮大喷| 国产精品亚洲二区在线看| 爱爱av在线| 成人国产乱对白在线观看| 久久久性色精品国产免费观看| 99这里有精品视频| 周宁县| 亚洲自拍偷拍二区| 日韩精品 中文字幕 视频在线 | 亚洲成av人的天堂在线观看| 无码AⅤ一区二区三区| 俺来也俺也啪www色|