![]()
4月24日,DeepSeek V4正式開源發(fā)布。海外AI社區(qū)48小時內完成了第一輪系統(tǒng)性評測。
結論出來了,但出乎很多人意料。好消息是:V4-Pro在智能體(Agent)任務上排名所有已公開開源模型第一。壞消息是:它的幻覺率,比上一代有所上升。
這兩件事放在一起,值得認真解讀一下。
幻覺率是什么,為什么企業(yè)端比個人用戶更在乎
「幻覺」是AI領域的專業(yè)術語,指的是:當模型不知道答案時,它會編造一個聽起來很像真的回答,而不是說「我不知道」。注意:幻覺率94%,不是說V4有94%的回答是錯的——它的含義是,在那些它本來不確定的問題上,有94%的概率選擇給出回答而非拒絕回答。這個區(qū)別很重要。
對個人用戶來說,這有時候只是個小麻煩——你問AI一道歷史題,它編了個看似合理但其實不存在的事件,你查一下發(fā)現(xiàn)不對,重新問一遍就好了。
但對企業(yè)端來說,幻覺是一個合規(guī)性紅線。醫(yī)療場景:AI給患者生成的用藥建議,如果出現(xiàn)幻覺,可能引發(fā)醫(yī)療事故;法律場景:合同審查中AI引用了一條「并不存在」的法條,律師事務所面臨違約風險;金融場景:AI生成的財報摘要中出現(xiàn)了錯誤數(shù)據(jù),投資決策失誤的責任歸屬極為復雜。這三個場景有一個共同特點:零容忍。
這就是為什么,幻覺率是企業(yè)選AI模型的核心指標之一——有時甚至比「聰明程度」更重要。
? V4-Pro幻覺率:94%(不確定時選擇回答而非拒絕的概率)(來源:Artificial Analysis評測,2026年4月)
? V4-Flash幻覺率:96%(來源:Artificial Analysis評測,2026年4月)
? V4-Pro Agent評分:GDPval-AA 1554分,位列開源模型第一,超越Kimi K2.6(1484)(來源:Artificial Analysis,2026年4月)
? API定價:輸入12元/百萬token,輸出24元/百萬token(來源:DeepSeek API文檔,2026年4月24日)
V4為什么在Agent能力提升的同時,幻覺率有所上升
▍Agent任務的本質:更長的推理鏈條
傳統(tǒng)的「問答型」AI,一次對話通常完成一次推理。而Agent任務(如:幫我查三個供應商的報價,對比優(yōu)劣,起草詢價郵件)需要AI自主規(guī)劃多個步驟,每一步調用工具、處理結果、再規(guī)劃下一步。推理鏈條可以延伸到十步、二十步甚至更多。鏈條越長,每一步的小誤差越有機會積累放大——類似「傳話游戲」效應。這在一定程度上解釋了為什么Agent能力強的模型,幻覺率也更難控制。
▍DeepSeek的技術取舍
根據(jù)Artificial Analysis的評測數(shù)據(jù),V4-Pro在知識準確性(AA-Omniscience)上比V3.2有所提升,得分從-21改善至-10。但同時,當模型不確定時,它選擇「大膽回答」而非「保守拒絕」——這正是幻覺率高的根本來源。這是一個明確的設計取舍:Agent場景中,一個「什么都不說」的模型會頻繁卡住工作流,而一個「大膽推進」的模型能完成更復雜的任務,但引入了更高的出錯風險。這不是V4的失誤,而是技術路線的選擇。
更強的工具,需要更謹慎的使用者。
企業(yè)端應該怎么用V4
「Agent第一+幻覺率偏高」的組合,并不意味著V4不適合企業(yè)使用,而是需要分場景部署。
▍適合大量使用的場景
①內容創(chuàng)作與研究輔助(文章起草、市場分析、競品調研)——幻覺的代價是可接受的,人工審閱是最后一道關;②代碼生成與調試——有工程師建議,代碼層面的幻覺可以通過測試用例快速暴露,驗證成本相對較低;③多步驟任務自動化(數(shù)據(jù)處理流程、格式轉換、批量操作)——幻覺風險可以通過結果驗證機制控制。
▍需要加強核查的場景
①法律文書生成與合同審查——幻覺引用法條是高風險行為,應作為輔助而非判斷主體;②醫(yī)療建議與臨床決策支持——監(jiān)管合規(guī)要求明確,AI輸出必須經(jīng)過專業(yè)人員復核;③財務數(shù)據(jù)分析與合規(guī)報告——數(shù)字錯誤在財務場景代價極高。
對于企業(yè)AI負責人來說,真正的價值判斷不是「V4幻覺率偏高,所以不能用」,而是「在哪些場景下,V4的幻覺風險是可控的,在哪些場景下需要加強審查」。
? V4-Pro運行成本:Artificial Analysis全套測評耗費約1,071美元,高于V3.2的71美元(來源:Artificial Analysis,2026年4月)
? V4-Pro輸出token量:190M(僅測評套件),Token消耗顯著高于同級開源模型
? 開源狀態(tài):V4-Pro與V4-Flash均已開源,支持本地私有化部署(來源:DeepSeek API文檔,2026年4月24日)
Agent時代的幻覺問題,比過去更值得關注
過去,AI的幻覺問題主要是個人用戶的體驗問題。現(xiàn)在,隨著AI進入Agent時代(AI自主完成多步驟工作流程),幻覺問題正在升級為更復雜的系統(tǒng)性挑戰(zhàn)。
在Agent工作流中,每一步的輸出都是下一步的輸入。幻覺一旦出現(xiàn),可能被后續(xù)步驟放大,而不是被隔離。這是整個AI行業(yè)正在面對的核心技術難題:如何在提升Agent能力的同時,把幻覺率有效壓低。目前沒有模型同時做到了兩者的最優(yōu)化。V4選擇了「Agent優(yōu)先」,另一些模型選擇了「幻覺率優(yōu)先」,這是不同的技術路線,適配不同的使用場景。
DeepSeek V4更聰明了,也更敢說話了。但「敢說話」和「說對話」,從來不是同一件事。
Agent能力排名開源第一,這是DeepSeek V4真實的技術突破。幻覺率偏高,這也是真實的技術代價。兩件事都是真的,都值得認真對待。
對普通用戶來說,V4用來寫文章、做研究、輔助編程,完全沒有問題。對企業(yè)端來說,在醫(yī)療、法律、金融這類「精確性要求極高」的場景部署之前,需要建立相應的人工核查機制。這不只是V4的局限,這是當前所有大模型都面臨的現(xiàn)實。
作 者 |知予
免責聲明:本文僅為信息分享與行業(yè)分析,不構成任何投資建議、投資分析意見或交易邀約。市場有風險,投資需謹慎。任何人依據(jù)本文內容作出的投資決策,風險與盈虧自行承擔,作者及發(fā)布平臺不承擔任何法律責任。
信息來源
1. Artificial Analysis:《DeepSeek is back among the leading open weights models with V4 Pro and V4 Flash》(2026年4月)
2. DeepSeek API官方文檔:更新日志(2026年4月24日)
3. BentoML Blog:《The Complete Guide to DeepSeek Models》(2026年4月)
4. 每日經(jīng)濟新聞:《DeepSeek V4來了!"用國產(chǎn)算力跑國產(chǎn)模型"》(2026年4月25日)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.