網易首頁 > 網易號 > 正文申請入駐

當國產模型追上閉源旗艦，企業 AI 編程的真正障礙才浮出水面

2026-05-01 10:22:29　來源: InfoQ

北京舉報

分享至

作者 | 周云龍

編輯 | 蔡芳芳

編者按：

過去一年，企業 AI Coding 的討論往往集中在模型能力、部署成本與合規約束上。DeepSeek V4 的出現，的確讓私有化部署首次擁有了接近閉源旗艦的現實選項，也部分緩解了中國企業長期面臨的工具死鎖。但模型問題緩解之后，更深層的約束隨之浮現：代碼庫中的業務隱知識、歷史決策與架構習慣，并不會因為模型升級而自動變得可理解。本文借“AI 上下文負債”這一概念提醒我們，AI 編程的真正難點，正在從模型供給側轉向組織治理側——從選工具，轉向補文檔、立規范、清理歷史欠賬。

對企業而言，接下來的競爭不只是接入 AI 的速度，更是誰更早完成知識治理、工程規范和漸進重構。

去年秋天，一個朋友所在的上市公司開始推動 AI 輔助編程。安全部門花三個月審了五款工具，結論是不能用——數據要出內網。IT 部門轉而自研，裝上了內部 GPU 集群，部署了一個半年前開源的大模型，在 IDE 里接了一個對話插件。研發團隊用了一周，沒人再打開了。

他說：“你試過讓一個不了解你代碼庫的 AI 幫你修 bug 嗎？就像叫一個剛下飛機的出租車司機走一條他連路口都沒見過的巷子。”

這不是一個模型能力問題。那款私有化部署的模型寫標準 API、生成單元測試、補全常規邏輯，能力夠用。問題在于它面對的代碼庫是一個維護了九年的財務后臺系統。數據庫表名是八年前兩個已離職的項目經理起的，訂單狀態不靠主表字段判斷而要查日志表最后一條關聯記錄，核心業務規則一部分在存儲過程里、一部分散落在三百多個 Controller 文件中。沒有任何地方把這些規則完整記下來過。

給這樣一個系統加“部分退款”功能，AI 會建一個干凈的 refund 表、寫標準 CRUD、關聯訂單 ID——代碼組織得挺好。審查的人必須逐行比對：它知不知道退款要同時寫三張表才能保證財務對賬？知不知道該業務有個隱藏規則——發貨超三十天的訂單走人工通道？都不知道。生成的代碼語法完美、業務上下文里錯得不著痕跡。

代碼越混亂，AI 的效率提升越可疑——審查成本的增長速度很可能超過了生成速度的節省。

AI 上下文負債

今年四月，科技從業者 Abbas Raza 在一篇博文里將這個現象命名為 AI 上下文負債（AI context debt）：代碼庫知道關于自己的信息，與 AI 工具需要知道才能生成正確輸出所需信息之間的缺口。

這個概念解釋了一個反復出現的現象：同樣部署了 AI 編碼工具，綠地和棕地團隊的體驗判若云泥。綠地項目從零建立規范——架構規則隨代碼生長、提示模式在決策漂移前就被鎖定——效果接近當初的承諾。棕地團隊面對的是兩到五年的決策層積、離職者留下的隱知識、八個月沒打開的 Wiki。Raza 舉了具體的例子：AI 不知道你的異常類叫 AppException，它拋泛型 Error；不知道你有一層帶結構化字段的日志封裝——運維的看板和告警全依賴這些字段，它寫了 console.log，這個模塊從部署第一天就從監控棧里消失了；舊模式有 40000 行存量、新模式只有 8000 行，AI 必然傾向舊模式。

這些沒有一個以明顯故障出現。它們積累為“微妙的錯誤”：代碼在抽象層面正確，在具體上下文里錯誤。傳統技術債有紙面記錄可追溯，AI 上下文負債出問題之前無從察覺。MIT 2025 年一項調查的數字因此變得可理解：95% 的企業沒有從 AI 投資中獲得有意義的回報。原因不是模型不行。

合規的死鎖

如果只是上下文負債，解法是清楚的——更好的模型、更好的上下文工程。但對需要面對安全合規的中國上市公司和金融機構而言，這一步之前就已經被卡住了。

安全部門拿出數據出境管理規定，外部工具不能用。IT 部門采購 GPU 服務器，選一個較新的開源模型做私有化部署。然后合規流程啟動：安全審計、滲透測試、數據脫敏驗證——短則三四個月，長則半年。走完一圈，當初選的模型版本已過時，換個新版再走一圈。自研工具跑的始終是老舊模型，開發者用一周，不用了。

這不是懈怠或資金短缺。合規節奏追不上模型迭代速度，工具建設者和業務開發者的認知之間存在斷層——基礎架構團隊評測用 HumanEval 和 MBPP，不是“能不能理解我們存儲過程里的隱規則“。最需要用 AI 提效的老舊代碼庫，恰恰最難讓 AI 進入。

DeepSeek V4 打破了一環

這個死鎖在 2026 年 4 月 24 日出現了一個關鍵的松動。

當天 DeepSeek 發布了 V4 預覽版并同步開源——選在和 GPT-5.5 同一天。同時發布的有兩個版本：V4-Pro 總參數 1.6 萬億、激活 490 億；V4-Flash 總參數 2840 億、激活 130 億；二者均支持 100 萬 token 上下文窗口。V4-Pro 在編程評測 Codeforces 上得分 3206，比肩 GPT-5.4；在軟件工程基準 SWE-bench 上達到 80.6%，接近 Claude Opus 4.6；Agentic Coding 能力在開源模型中排名最高，內部測試中交付質量接近 Sonnet 4.5——此前這個層級的能力幾乎被閉源廠商壟斷。

但這不只是又一個模型性能突破的故事，真正深遠的變化發生在算力層。DeepSeek V4 首次徹底脫離英偉達 CUDA 生態，全面適配華為昇騰平臺完成訓練。華為同日宣布昇騰超節點全系列產品支持 V4，昇騰 950 超節點推理延遲做到 20 毫秒，昇騰 A3 超節點吞吐量 2000+ TPS。這意味著“國產模型 + 國產芯片”的全棧閉環首次在大規模開源旗艦模型上跑通了。

這對中國企業 AI 編程落地意味著什么？簡單說，合規死鎖的第一環——“私有化部署的模型跟不上閉源旗艦的性能”——被突破了。一家上市公司現在可以采購昇騰服務器，部署 DeepSeek V4，數據不出內網，模型能力卻足夠接近世界頂尖水平。它不需要跟英偉達打交道，不需要擔心 API 數據出境，不需要在合規審批周期和模型迭代速度之間做不可能的選擇。

緊接著在 4 月 25 日，截至發稿日 DeepSeek 官網已將限時優惠延長至5月31日。優惠后輸入（緩存命中）降至每百萬 token 0.25 元——幾乎等于免費的上下文復用。輸入未命中 3 元、輸出 6 元。對比半年前主流閉源模型的單價，這是一個數量級的差距。定價信號的含義不言自明：當推理成本降到這個水平，企業不再需要在高性能和低成本之間二選一。

這一天離 V3 發布隔了 15 個月。如果把 V4 的性能躍遷和昇騰全棧適配放在這個時間跨度里看，速度是驚人的——15 個月前，一個合規受限的中國企業要在內網跑一個編程能力足夠強的模型，要么偷偷接外部 API（違規），要么用性能差一截的開源模型（低效），要么買英偉達高端 GPU 跑開源模型（貴且受制于出口管制）。現在這三條路合成了一條：國產芯片跑國產開源旗艦模型，性能追平閉源。

對企業的 AI Coding 場景而言，V4 的 Agentic Coding 能力是尤其值得關注的。在 SWE-bench 上 80.6% 這個數字意味著什么？它意味著模型不只是能補全一個函數或生成一段算法——它能理解一個軟件工程任務（“給訂單模塊增加部分退款功能”），定位到需要改動的文件，寫出跨文件的修改，并且讓代碼真的跑通。這是企業日常開發中最常見的需求形態，也是對私有化工具來說此前最薄弱的能力環節。V4 讓這個環節有了一個開源可部署的選項，不需要依賴外部 SaaS 工具。

但這里有一個關鍵的轉折。DeepSeek V4 打破的是模型供應側的瓶頸——高性能開源模型加國產算力，讓受合規約束的企業終于有了一個能力不掉隊的私有化選項。然而它無法打破另一個瓶頸。

模型好了，上下文負債還在

回到文章開頭那家上市公司。假設他們現在采購了昇騰服務器，部署了 DeepSeek V4——模型的代碼生成質量會比之前那個半年前的老模型好得多，但那個九年前的財務后臺系統里散落的隱知識，不會因為模型換了就自動消失。訂單狀態的判斷邏輯、三張表的對賬規則、三十天人工通道的約定——這些仍然不存在于任何可以被 AI 讀取的結構化文檔里。

V4 的 100 萬 token 上下文窗口確實是一個有用的能力。理論上，你可以把整個項目的相關代碼文件、數據庫 schema、甚至部分業務文檔一次性塞進上下文。但這解決的是“信息獲取范圍”的問題，不是“信息是否存在”的問題。如果那些業務規則從來沒有被寫下來過，上下文窗口再大也裝不進不存在的東西。

所以 DeepSeek V4 帶來的變量不是“AI 編程終于可以落地了”，而是“模型供給側的瓶頸被打破了，組織知識管理變成了唯一的瓶頸”。

先理債，后提效——現在模型夠用了

Raza 提出的五件基礎工作，在新的格局下反而變得比之前更加迫切：一份架構規則文件，告訴 AI 代碼庫的不可逾越邊界；一份系統行為文檔，寫清楚運行時依賴和故障模式；一份領域知識文檔，把代碼表面讀不出來的業務概念記下來；一套經過實戰驗證的提示模板庫；一套 PR 審查標準，要求 AI 輔助生成的代碼注明用了什么上下文、參考了什么文件、審查過了什么。

這三樣放在以前，你可以說“模型本身還不夠好，做了這些也白做”。現在模型足夠好了。DeepSeek V4 在編程和 Agent 能力上已經接近甚至部分追平了閉源旗艦——開源最強、成本地板價、國產芯片可跑。一個合規受限的企業現在沒有“模型不行”這個借口了。唯一剩下的瓶頸是自己的知識管理欠賬。

這個認知翻轉是有分量的：過去十年，企業可以說文檔少是因為“寫了也沒人看”；現在不寫，AI 就會把代碼寫錯。AI 沒有讓文檔變得不重要，它讓文檔從一個可有可無的交付物變成了直接影響代碼質量的工程輸入。

在模型過硬的年代，流程怎么跟上

知識工件是地基。往上走一層，是怎么把“改代碼”這件事和 AI 的協作方式重新設計。SDD（Specification-Driven Development，規格驅動開發）是當前最成體系的嘗試——規格不從屬于代碼，代碼從屬于規格。產品需求文檔不是開發指南，而是開發的發生器；技術方案是精確到能生成實現的定義。

GitHub 的 spec-kit 把這一套拆成了“寫規格—出方案—拆任務”三步，整個過程規格文件跟著代碼一起版本化。OpenSpec 則明確說自己是“built for brownfield not just greenfield”，可以在老舊項目上增量加。

但對于老舊項目，SDD 天然只能蠶食——在新功能或重構模塊上寫 spec，不追求全量覆蓋。老舊項目沒有完整的規格說明書，它的 spec 就是代碼本身。強制在每次改動前先寫 spec，對資源緊張的團隊來說時間賬算不平。

蠶食還有一個隱性的坑。重構模塊有了 spec、AI 按 spec 生成了干凈的新代碼，但它仍要和老模塊交互——老模塊沒有 spec，接口不規整，狀態轉換的隱性條件藏在舊代碼里。系統內部被畫出一條邊界：這邊有 spec，那邊沒有。新代碼加了個校驗，老代碼那邊恰好依賴校驗不存在時的默認行為——測試在 spec 范圍內全過，集成到一起崩了。這類問題往往無法靠增加自動化測試來預防，因為你不知道老代碼那邊有多少行為是設計如此、有多少是曾經的 bug 被當成了 feature。

真正的效率回報可能要等到 spec 覆蓋率達到某個臨界點之后才會出現——那時大部分新開發已經不用在散落的隱知識里摸索。這個臨界點在哪里，沒有人能給出精確數字。業界的定量研究還沒跟上。

這個次序說出來似乎平淡：先把知識工件補齊，讓 AI 至少了解它面對的是什么；引入漸進式 SDD，接受早期摩擦成本；同步推進工具的工程化集成——上下文切片、RAG 知識庫、工具鏈打通。但這個平淡的次序恰好是它最難落地的地方。所有企業都知道文檔重要，都說過“下次一定補”，最后都沒補。

區別在于，過去那個“下次”沒有緊迫性，但現在有了。DeepSeek V4 和昇騰的組合，把中國企業 AI 編程落地中“能用什么模型”和“在哪里跑模型”這兩個問題閉合了，而且是過去 15 年開源運動史上第一次由一家中國公司在編程和 Agent 兩個核心能力上追平了全球閉源旗艦。剩下來的全是組織層面的事：知識管理、工程規范、漸進重構、團隊對齊。工具沒有立場，但欠的債有復利。

茶餐廳那場聊天快結束的時候，我朋友說：“我們現在用 AI，其實就是在用一個放大器。代碼庫是干凈的，它就放大效率和創造力；代碼庫一團亂麻，它就放大混亂。”

他喝完最后一口凍檸茶，把杯子推到一邊。

“不過現在至少不用再糾結模型本身行不行了。剩下的，是我們自己的事。”

Abbas Raza. “The Brownfield Problem: How Engineering Teams Are Operationalizing AI Development in 2026“. Leadership in Tech, Product, and Growth, 2026 年 4 月 12 日. https://abbasraza.com/the-brownfield-problem-how-engineering-teams-are-operationalizing-ai-development-in-2026/
GitHub spec-kit. “Specification-Driven Development (SDD)“. github.com/github/spec-kit, 2026 年 4 月. https://github.com/github/spec-kit/blob/main/spec-driven.md
OpenSpec. “Spec-Driven Development for AI Coding Assistants“. Fission-AI, 2026. https://openspec.pro/
“DeepSeek V4 正式發布，昇騰超節點系列產品全面支持“. IT 之家, 2026 年 4 月 24 日. https://www.ithome.com/0/943/124.htm
“DeepSeek V4 大模型全球開源，華為昇騰 950 與 Atlas 350 加速全棧適配落地“. 中關村在線, 2026 年 4 月 24 日. https://ai.zol.com.cn/1170/11702657.html
“DeepSeek-V4 預覽版到底強在哪？推理性能 Agent 能力全方位拆解“. CSDN, 2026 年 4 月 24 日. https://blog.csdn.net/hyunbar/article/details/160481830
“DeepSeek-V4 正式發布，全面適配華為昇騰芯片“. 新浪財經, 2026 年 4 月 24 日. http://finance.sina.com.cn/stock/usstock/c/2026-04-24/doc-inhvrnzq4254551.shtml
“DeepSeek-V4-Pro 模型 API 官宣限時 2.5 折優惠“. 36 氪, 2026 年 4 月 25 日. https://36kr.com/newsflashes/3782954220608512
“DeepSeek-V4-Pro API 限時 2.5 折優惠“. 科創板日報 / 財聯社, 2026 年 4 月 25 日. https://www.cls.cn/detail/2355793
Kyle Wiggers. “VCs predict strong enterprise AI adoption next year — again“. TechCrunch, 2025 年 12 月 29 日.（引用 MIT 2025 年 8 月調查數據）
“企業私有化大模型部署完整方案（2026 企業 AI 系統架構指南）“. CSDN, 2026 年 4 月 24 日. https://blog.csdn.net/GAOneS/article/details/159952322

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.