網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI竟然會「撒謊」？V4幻覺率升高意味著什么

2026-04-26 18:33:16　來源: BT財經(jīng)

北京舉報

分享至

4月24日，DeepSeek V4正式開源發(fā)布。海外AI社區(qū)48小時內完成了第一輪系統(tǒng)性評測。

結論出來了，但出乎很多人意料。好消息是：V4-Pro在智能體（Agent）任務上排名所有已公開開源模型第一。壞消息是：它的幻覺率，比上一代有所上升。

這兩件事放在一起，值得認真解讀一下。

幻覺率是什么，為什么企業(yè)端比個人用戶更在乎

「幻覺」是AI領域的專業(yè)術語，指的是：當模型不知道答案時，它會編造一個聽起來很像真的回答，而不是說「我不知道」。注意：幻覺率94%，不是說V4有94%的回答是錯的——它的含義是，在那些它本來不確定的問題上，有94%的概率選擇給出回答而非拒絕回答。這個區(qū)別很重要。

對個人用戶來說，這有時候只是個小麻煩——你問AI一道歷史題，它編了個看似合理但其實不存在的事件，你查一下發(fā)現(xiàn)不對，重新問一遍就好了。

但對企業(yè)端來說，幻覺是一個合規(guī)性紅線。醫(yī)療場景：AI給患者生成的用藥建議，如果出現(xiàn)幻覺，可能引發(fā)醫(yī)療事故；法律場景：合同審查中AI引用了一條「并不存在」的法條，律師事務所面臨違約風險；金融場景：AI生成的財報摘要中出現(xiàn)了錯誤數(shù)據(jù)，投資決策失誤的責任歸屬極為復雜。這三個場景有一個共同特點：零容忍。

這就是為什么，幻覺率是企業(yè)選AI模型的核心指標之一——有時甚至比「聰明程度」更重要。

? V4-Pro幻覺率：94%（不確定時選擇回答而非拒絕的概率）（來源：Artificial Analysis評測，2026年4月）

? V4-Flash幻覺率：96%（來源：Artificial Analysis評測，2026年4月）

? V4-Pro Agent評分：GDPval-AA 1554分，位列開源模型第一，超越Kimi K2.6（1484）（來源：Artificial Analysis，2026年4月）

? API定價：輸入12元/百萬token，輸出24元/百萬token（來源：DeepSeek API文檔，2026年4月24日）

V4為什么在Agent能力提升的同時，幻覺率有所上升

▍Agent任務的本質：更長的推理鏈條

傳統(tǒng)的「問答型」AI，一次對話通常完成一次推理。而Agent任務（如：幫我查三個供應商的報價，對比優(yōu)劣，起草詢價郵件）需要AI自主規(guī)劃多個步驟，每一步調用工具、處理結果、再規(guī)劃下一步。推理鏈條可以延伸到十步、二十步甚至更多。鏈條越長，每一步的小誤差越有機會積累放大——類似「傳話游戲」效應。這在一定程度上解釋了為什么Agent能力強的模型，幻覺率也更難控制。

▍DeepSeek的技術取舍

根據(jù)Artificial Analysis的評測數(shù)據(jù)，V4-Pro在知識準確性（AA-Omniscience）上比V3.2有所提升，得分從-21改善至-10。但同時，當模型不確定時，它選擇「大膽回答」而非「保守拒絕」——這正是幻覺率高的根本來源。這是一個明確的設計取舍：Agent場景中，一個「什么都不說」的模型會頻繁卡住工作流，而一個「大膽推進」的模型能完成更復雜的任務，但引入了更高的出錯風險。這不是V4的失誤，而是技術路線的選擇。

更強的工具，需要更謹慎的使用者。

企業(yè)端應該怎么用V4

「Agent第一+幻覺率偏高」的組合，并不意味著V4不適合企業(yè)使用，而是需要分場景部署。

▍適合大量使用的場景

①內容創(chuàng)作與研究輔助（文章起草、市場分析、競品調研）——幻覺的代價是可接受的，人工審閱是最后一道關；②代碼生成與調試——有工程師建議，代碼層面的幻覺可以通過測試用例快速暴露，驗證成本相對較低；③多步驟任務自動化（數(shù)據(jù)處理流程、格式轉換、批量操作）——幻覺風險可以通過結果驗證機制控制。

▍需要加強核查的場景

①法律文書生成與合同審查——幻覺引用法條是高風險行為，應作為輔助而非判斷主體；②醫(yī)療建議與臨床決策支持——監(jiān)管合規(guī)要求明確，AI輸出必須經(jīng)過專業(yè)人員復核；③財務數(shù)據(jù)分析與合規(guī)報告——數(shù)字錯誤在財務場景代價極高。

對于企業(yè)AI負責人來說，真正的價值判斷不是「V4幻覺率偏高，所以不能用」，而是「在哪些場景下，V4的幻覺風險是可控的，在哪些場景下需要加強審查」。

? V4-Pro運行成本：Artificial Analysis全套測評耗費約1,071美元，高于V3.2的71美元（來源：Artificial Analysis，2026年4月）

? V4-Pro輸出token量：190M（僅測評套件），Token消耗顯著高于同級開源模型

? 開源狀態(tài)：V4-Pro與V4-Flash均已開源，支持本地私有化部署（來源：DeepSeek API文檔，2026年4月24日）

Agent時代的幻覺問題，比過去更值得關注

過去，AI的幻覺問題主要是個人用戶的體驗問題。現(xiàn)在，隨著AI進入Agent時代（AI自主完成多步驟工作流程），幻覺問題正在升級為更復雜的系統(tǒng)性挑戰(zhàn)。

在Agent工作流中，每一步的輸出都是下一步的輸入。幻覺一旦出現(xiàn)，可能被后續(xù)步驟放大，而不是被隔離。這是整個AI行業(yè)正在面對的核心技術難題：如何在提升Agent能力的同時，把幻覺率有效壓低。目前沒有模型同時做到了兩者的最優(yōu)化。V4選擇了「Agent優(yōu)先」，另一些模型選擇了「幻覺率優(yōu)先」，這是不同的技術路線，適配不同的使用場景。

DeepSeek V4更聰明了，也更敢說話了。但「敢說話」和「說對話」，從來不是同一件事。

Agent能力排名開源第一，這是DeepSeek V4真實的技術突破。幻覺率偏高，這也是真實的技術代價。兩件事都是真的，都值得認真對待。

對普通用戶來說，V4用來寫文章、做研究、輔助編程，完全沒有問題。對企業(yè)端來說，在醫(yī)療、法律、金融這類「精確性要求極高」的場景部署之前，需要建立相應的人工核查機制。這不只是V4的局限，這是當前所有大模型都面臨的現(xiàn)實。

作者 |知予

免責聲明：本文僅為信息分享與行業(yè)分析，不構成任何投資建議、投資分析意見或交易邀約。市場有風險，投資需謹慎。任何人依據(jù)本文內容作出的投資決策，風險與盈虧自行承擔，作者及發(fā)布平臺不承擔任何法律責任。

信息來源

1. Artificial Analysis：《DeepSeek is back among the leading open weights models with V4 Pro and V4 Flash》（2026年4月）

2. DeepSeek API官方文檔：更新日志（2026年4月24日）

3. BentoML Blog：《The Complete Guide to DeepSeek Models》（2026年4月）

4. 每日經(jīng)濟新聞：《DeepSeek V4來了！"用國產(chǎn)算力跑國產(chǎn)模型"》（2026年4月25日）

聲明：內容由AI生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.