<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      梁文鋒,這一次要掀桌

      0
      分享至



      今天,中國深度求索的DeepSeek-V4人工智能模型“千呼萬喚始出來”,一點沒讓人失望。

      所謂“冤家路窄”。幾個小時前,OpenAI的GPT5.5剛剛發布,沒什么水花——好比開演唱會的汪峰,總是幫忙預告“別的大事發生”。





      DeepSeek-V4(上)和OpenAI的GPT5.5(下)

      要知道,DeepSeek的兩大撒手锏模型,2024年底發布的V3和2025年初發布的R1,以極高推理效率和極低成本,直接掀翻了大模型Scaling Law的桌子,證明“堆算力”絕不是人工智能發展的唯一路徑,導致GPU霸主英偉達一天之內市值蒸發6000億美元,創下美股史上最大單日市值損失紀錄。

      如果不是后來推理需求替代了訓練需求,全球AI算力的“敘事”都得重寫,多賺錢的GPU廠商都得迎接寒冬。

      一年多后的今天,DeepSeek-V4又來“掀桌”了。

      這一次被“掀翻”的,又是誰呢?

      掀了“模型性能桌”

      今天發布的DeepSeek-V4,兩個版本。一個叫Flash,參數少點,是多快好省的日常版,沒什么大活兒就用它;一個叫Pro,專家版,參數1.6T,主打專業高性能“服務”。

      畢竟其他AI模型的更新“日新月異”,而經歷了145天,DeepSeek才發布新模型V4,它到底厲害在哪里?

      什么數學推理能力增強、代碼輸出能力增強、多模態短板補齊、上下文窗口百萬詞元起步、API價格更低等等,其實都不是關注的重點,它們屬于AI模型“正常”的迭代升級。



      DeepSeek-V4的兩個版本,Flash版和Pro版/圖源:DeepSeek

      根據官網信息,V4有3大“厲害”的技術要點,真正值得注意。

      一是Engram記憶模塊。今年1月深度求索發表過創始人梁文鋒的署名論文,專門談這個技術要點。簡單說,Engram是一種條件記憶,可以區分靜態知識和主動知識,即只要能“查”的就不去“算”,節約算力。

      它是要解決傳統Transformer架構里,記憶和推理混在一起的問題。以前大模型累得要死,既要用“注意力”去“檢索”知識,又得用“注意力”去推理。

      而Engrame可以把那些固定的、靜態的知識存入到一個類似“字典”的查找表里,使模型能夠快速調用,就不用消耗大量算力在那“現算”了。

      實際效果是相當不錯的,模型的寶貴“注意力”資源釋放了,可以專心做組合推理任務。在實驗階段,一個集成270億參數的Engram的模型,在參數和浮點運算次數同等的條件下,性能超過MoE(混合專家)模型。



      DeepSeek表示,DeepSeek-V4-Pro性能比肩頂級閉源模型/圖源:DeepSeek

      二是mHC,也叫流形約束超連接。梁文鋒也在署名論文里介紹過,主要是想解決極深網絡訓練不穩定的問題。

      Transfomer模型就像金字塔,一層摞一層,堆疊得很深的時候,很容易出現梯度爆炸、指令消失、訓練崩潰。

      這模型就好比一座500層摩天大樓,信號是一層一層傳上去的,但如果每層都漏一點信息,等到頂樓時,指令跟噪音差不多了,傳得越多錯得越多;而且地基容易壞,樓太高,下面支撐不穩定,稍微一點搖晃樓就要塌了。

      mHC等于在摩天大樓里裝了一個自動穩定電梯。它有數學上的硬約束,“每一層”都有一個閥門,不管傳進來是什么信號,一律精準控制在一個固定范圍內:既不能讓信號太強給電梯增加負擔,也不會讓信號太弱以至于傳丟了。



      DeepSeek-V4 和 DeepSeek-V3.2 的計算量和顯存容量隨上下文長度的變化/圖源:DeepSeek

      三是CSA和HCA注意力機制創新。CSA是壓縮稀疏注意力,可以看摘要找重點;HCA是高度壓縮注意力,看大綱抓主旨。

      V4把這兩種方法交錯使用,一層CSA,一層HCA,就像一個人讀書,既粗看目錄大綱,又細看了一下各章內容摘要。這兩種創新解決了大模型處理長文本的兩個短板:卡頓、爆顯存。

      靠這三個集中的創新點,深度求索掀了“模型性能桌”。據深度求索公司內部評測,V4的編程體驗,比Anthropic的Claude Sonnet 4.5強,交付質量接近Opus 4.6非思考模式,比起Opus 4.6思考模式還有些差距。

      前幾天Opus 4.7也上線了,編程能力是強于4.6思考模式,綜合性能全球第一。這樣看,V4的性能逼近Opus4.6,也就和“全球第一”差兩個月左右。

      掀了“GPU壟斷桌”

      V4還有一個突出的本領——精打細算地榨干了GPU的性能。

      4月23日,也就是V4發布的前一天,深度求索發布了開源Tile Kernels模塊,使用的是TileLang語言。

      TileLang是一個兼具計算機語言和編譯器前端/中端的AI算子編程語言,屬于領域特定語言(DSL),由北京大學計算機學院團隊主導開發,深度求索聯合開發,2025年在GitHub上開源。去年9月,DeepSeek的V3.2-Exp模型就使用了這個語言。

      開發GPU內核,之前只能靠C++和CUDA。

      CUDA是和英偉達綁定的計算平臺加編程模型,允許軟件開發者利用計算機語言,直接調用GPU中的通用計算資源。目前全球90%以上的AI算力都跑在CUDA架構上。

      現在,TileLang拋開CUDA,用Python表達計算邏輯,再交給編譯器自動優化,直接改變了GPU優化的方式。

      而且,TileLang可以跑在任意一種芯片上。英偉達的可以,寒武紀的可以,華為昇騰也可以——同一套邏輯能夠跨硬件執行。



      TileLang-Ascend開源社區

      深度求索昨天發布的Tile Kernels模塊,是利用TileLang的Python接口編寫邏輯,然后通過TileLang的編譯器,自動生成針對特定硬件優化的底層代碼。

      其優化GPU的主要辦法包括:“瓷片”(Tile)式管理,把計算任務切成固定大小的矩陣,數據搬運整塊進、整塊出;還可以一邊算“這塊”,一邊搬“下一塊”,磨刀不誤砍柴工,讓GPU的計算狀態永遠滿載,利用率極大拉高。

      AI芯片使用的現實情況是,很多國產芯片的紙面算力很高,但實測的有效利用率只有3到4成,而英偉達芯片有CUDA的加持,利用率輕松達到6至7成。

      現在,有了處于軟件抽象層的Tile Kernels,通過Tile級的微操,國產芯片的有效算力可以真正實現與英偉達同代產品的1比1對齊。

      在使用層面,中國頂級AI芯片與英偉達頂級AI芯片的差距會越來越小。

      說到底,英偉達的GPU不是唯一選擇了,連英偉達的CUDA也不是非用不可了。英偉達的股價,恐怕又得往下走一走了。

      掀了“美國AI牌桌”

      美國放行英偉達H200已經4個月,而美國商務部長盧特尼克在4月22日表示,中國一塊也沒買。

      核心原因當然有“自力更生”的因素,也因為深度求索等中國公司已經可以挑戰英偉達幾款更先進的芯片,沒有必要買它的“限定版”舊款。

      美國本來的算盤是,偶爾小規模放行一下英偉達的舊款芯片,其他芯片禁售、模型禁用,對中國實行一波緊似一波的圍追堵截。

      而中國芯適配中國模型,已經不算新聞了。

      2025年8月DeepSeek-V3.1發布,模型推理端已經穩定支持華為昇騰910系列。今年2月,V4輕量版內測時,業內傳出其訓練和推理優先向昇騰芯片開放,暫時未向英偉達芯片開放測試權限。



      DeepSeek-V4-Flash上線華為云/圖源:華為

      很可能,從訓練到推理,V4全棧使用昇騰芯片。在這一過程中,深度求索和華為共同解決了一系列技術難題,如穩定性問題、片間互聯問題、軟件工具問題,因此V4花的時間也比較長。

      未來,V4模型明確支持華為昇騰950。昇騰950將于今年下半年推出,面向大模型訓練和推理,是昇騰910C的升級版,據悉采用全新架構,將是當下國內唯一商用、明確支持FP4低精度推理的AI加速卡,搭載華為自研國產HBM芯片。

      其次,深度求索的創新,幾乎是逆潮流而行的,和美國的路數不一樣。主流的創新,都是不斷優化模型架構,如MoE、長上下文等等;而深度求索琢磨的是GPU內核。

      而越往GPU內核走,對工程能力的要求越高。特別是Tile Kernels的意義,絕不能僅視其為算子集合,它是一套性能工程。

      深度求索這樣的世界頂級團隊,可以通過這一做法獲得數倍的效率提升,但其他團隊只能依賴框架優化等辦法、甚至無法判斷硬件性能瓶頸在哪里。

      芯片的真正瓶頸在于人,而不是代碼。V4露了一手“能力上限”,這不是“平均能力”所能達到的。



      2025年5月4日,人們在浙江省杭州市文三數字生活街區的AI黑科技市集上體驗DeepSeek的人工智能大模型/新華社發(龍巍攝)

      最后,看定價,V4依然極具市場競爭力。其中,高性能版的Pro輸入價格1元/百萬Tokens,輸出價格24元/百萬Tokens。輕量版的Flash輸入價格0.2元/百萬Tokens,輸出價格2元/百萬Tokens。

      看看美國競品“高聳入云”的價格:Claude Opus 4.7,輸入價格36.25元/百萬Tokens,輸出價格181.25元/百萬Tokens。今天發布的GPT5.5,輸入價格36.25元/百萬Tokens,輸出價格217.5元/百萬Tokens。

      靠V3和R1,DeepSeek將訓練成本極大拉低;到了V4,推理的成本也被極大拉低。

      所以,往深處說,V4的一系列創新,掀了“現有模型性能”“GPU壟斷”和“美國AI封堵”這三張牌桌,并改變了全球AI領域的競爭態勢:過去總是擔心中國AI芯片不夠“頂尖”,“落后”的壓力隨處可見。

      從今而后,中國AI模型,可以毫不焦慮地跑在中國AI芯片上了。

      首圖為新華社記者 黃宗治 攝,封面為伊一 AI制圖

      作者 |榮智慧

      編輯 | 向 現

      值班主編 | 吳擎

      排版 | 菲菲

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      Dior 創意總監手繪稿件大公開!網友:“典型的實物與手稿不符”,“迪奧的版師也不行啊”~

      Dior 創意總監手繪稿件大公開!網友:“典型的實物與手稿不符”,“迪奧的版師也不行啊”~

      CFW服裝設計
      2026-05-14 13:12:14
      世界正在發生一個極其惡心的變化!印度最終可能會成為地球大患

      世界正在發生一個極其惡心的變化!印度最終可能會成為地球大患

      世界圈
      2026-05-04 16:42:27
      謝霆鋒北京街頭騎行等紅燈被偶遇,側顏帥炸了,這狀態哪像44歲

      謝霆鋒北京街頭騎行等紅燈被偶遇,側顏帥炸了,這狀態哪像44歲

      嘴角上翹的弧度
      2026-05-14 02:53:32
      一個人最大的本事,就是解決問題的能力!(深度好文)

      一個人最大的本事,就是解決問題的能力!(深度好文)

      辛東方
      2026-02-12 08:00:03
      中方堅決不準臺當局出席,世衛大會關了門!鄭麗文:不得越過紅線

      中方堅決不準臺當局出席,世衛大會關了門!鄭麗文:不得越過紅線

      阿尢說歷史
      2026-05-13 22:46:28
      期待!3名超齡國腳將加入U23國足:全力沖擊亞運會獎牌

      期待!3名超齡國腳將加入U23國足:全力沖擊亞運會獎牌

      邱澤云
      2026-05-13 21:50:53
      北京時間5月14日,NBA傳來重磅消息!

      北京時間5月14日,NBA傳來重磅消息!

      止境
      2026-05-15 00:46:50
      黃仁勛夫婦捐贈算力,價值1.08億美元,英偉達盤前漲超2%!華爾街大佬:算力將成為一種新資產

      黃仁勛夫婦捐贈算力,價值1.08億美元,英偉達盤前漲超2%!華爾街大佬:算力將成為一種新資產

      每日經濟新聞
      2026-05-14 17:05:16
      概率僅16%!森林狼G5慘敗馬刺后,再遭致命壞消息

      概率僅16%!森林狼G5慘敗馬刺后,再遭致命壞消息

      夜白侃球
      2026-05-14 10:46:50
      0-2到2-2到2-4!亞洲杯神劇情:中國女足被淘汰,朝鮮跟日本爭冠

      0-2到2-2到2-4!亞洲杯神劇情:中國女足被淘汰,朝鮮跟日本爭冠

      侃球熊弟
      2026-05-14 21:24:50
      一家A股龍頭,把1200多噸戰略石墨走私美國

      一家A股龍頭,把1200多噸戰略石墨走私美國

      觀察者網
      2026-05-14 22:01:08
      一個男人在低谷時,拼命社交、到處找機會都是下策,最明智的做法,是狠心在這兩件事上做“反人性”的投資

      一個男人在低谷時,拼命社交、到處找機會都是下策,最明智的做法,是狠心在這兩件事上做“反人性”的投資

      心理觀察局
      2026-05-08 09:00:04
      日本真急眼了!剛到上海,中方就放王炸,日網友:這本該是我們的

      日本真急眼了!剛到上海,中方就放王炸,日網友:這本該是我們的

      新時代精神
      2026-05-14 16:53:11
      29歲伊朗航天天才被德黑蘭閃電處決,臨刑前喊出一句話讓全場寂靜

      29歲伊朗航天天才被德黑蘭閃電處決,臨刑前喊出一句話讓全場寂靜

      混沌錄
      2026-05-14 17:01:08
      砸了個寂寞!特朗普最愚蠢之處,就是把中美平起平坐的真相說出來

      砸了個寂寞!特朗普最愚蠢之處,就是把中美平起平坐的真相說出來

      小嵩
      2026-03-28 18:44:22
      1982年外賓專機在華被劫,劫匪提出要見中央領導,后來如何解決的

      1982年外賓專機在華被劫,劫匪提出要見中央領導,后來如何解決的

      阿胡
      2024-12-13 12:43:12
      不要錯過!5月14日早上09:00比賽!中央5套CCTV5、CCTV5+直播表

      不要錯過!5月14日早上09:00比賽!中央5套CCTV5、CCTV5+直播表

      林子說事
      2026-05-14 11:54:48
      西南交通大學副校長周仲榮將出任澳門理工大學校長

      西南交通大學副校長周仲榮將出任澳門理工大學校長

      澎湃新聞
      2026-05-14 19:54:27
      建議全城推廣! 成都正創新拆除綠化帶,增設左轉道緩堵

      建議全城推廣! 成都正創新拆除綠化帶,增設左轉道緩堵

      掌上金牛
      2026-05-14 11:44:03
      中國老年癡呆人數全球第一:茶喝的越多,癡呆的就越多,真的嗎?

      中國老年癡呆人數全球第一:茶喝的越多,癡呆的就越多,真的嗎?

      敘說醫療健康
      2026-05-13 06:00:20
      2026-05-15 04:40:49
      南風窗 incentive-icons
      南風窗
      冷靜地思考,熱情地生活
      2081文章數 124197關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      藝術
      時尚
      手機
      本地
      數碼

      藝術要聞

      帕特里克鏡頭下的戴安娜:光影與情感的極致呈現

      白色上衣+彩色下裝:今年夏天最火搭配,時髦又減齡!

      手機要聞

      比上代多賣了七成!華為Pura 90系列越賣越猛,蘋果該緊張了

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      與“AMD+AMG”賽道相見,英特爾、邁凱倫F1車隊達成戰略合作

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 97久久精品无码一区二区| 亚洲va综合va国产va中文| 无码人妻久久1区2区3区| 美女扒开大腿让男人桶| 在线天堂中文新版www| 亚洲欧美一区二区三区在线观看 | 久久精品国产精品亚洲38| 久久香蕉久久香蕉久久| 国产欧美综合在线观看第十页| 99视频在线精品免费观看6| 久久亚洲国产中v天仙www| 国产精品亚洲lv粉色| 日本欧美一区二区三区在线播放 | 国产欧美日韩VA另类在线播放| 久久精品丝袜高跟鞋| 国产精品熟女一区二区不卡| 亚洲一区二区三区在线| 夜夜高潮夜夜爽国产伦精品| 杨幂一级做a爰片性色毛片| 陵水| 亚洲精品美女久久777777| 国产乱妇乱子在线视频| 综合久久婷婷综合久久| 欧洲少妇性喷潮| 无码国内精品久久人妻蜜桃| 国产精品国产三级国快看| 日本丰满老熟妇乱子伦| 天天操.com| 亚洲综合激情另类小说区| 日韩精品福利一二三专区| 好吊妞av| 亚洲变态另类天堂AV手机版| 亚洲激情一区二区三区在线| japanese边做边乳喷| 麻豆精品传媒2021md| 国产绿帽在线视频看| 日本一区二区三区专线| 制服.丝袜.亚洲.中文.综合懂 | 中文亚洲字幕| 黄色精品996| 丰满人妻被中出中文字幕|