<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI竟然會「撒謊」?V4幻覺率升高意味著什么

      0
      分享至



      4月24日,DeepSeek V4正式開源發(fā)布。海外AI社區(qū)48小時內完成了第一輪系統(tǒng)性評測。

      結論出來了,但出乎很多人意料。好消息是:V4-Pro在智能體(Agent)任務上排名所有已公開開源模型第一。壞消息是:它的幻覺率,比上一代有所上升。

      這兩件事放在一起,值得認真解讀一下。

      幻覺率是什么,為什么企業(yè)端比個人用戶更在乎

      「幻覺」是AI領域的專業(yè)術語,指的是:當模型不知道答案時,它會編造一個聽起來很像真的回答,而不是說「我不知道」。注意:幻覺率94%,不是說V4有94%的回答是錯的——它的含義是,在那些它本來不確定的問題上,有94%的概率選擇給出回答而非拒絕回答。這個區(qū)別很重要。

      對個人用戶來說,這有時候只是個小麻煩——你問AI一道歷史題,它編了個看似合理但其實不存在的事件,你查一下發(fā)現(xiàn)不對,重新問一遍就好了。

      但對企業(yè)端來說,幻覺是一個合規(guī)性紅線。醫(yī)療場景:AI給患者生成的用藥建議,如果出現(xiàn)幻覺,可能引發(fā)醫(yī)療事故;法律場景:合同審查中AI引用了一條「并不存在」的法條,律師事務所面臨違約風險;金融場景:AI生成的財報摘要中出現(xiàn)了錯誤數(shù)據(jù),投資決策失誤的責任歸屬極為復雜。這三個場景有一個共同特點:零容忍。

      這就是為什么,幻覺率是企業(yè)選AI模型的核心指標之一——有時甚至比「聰明程度」更重要。

      ? V4-Pro幻覺率:94%(不確定時選擇回答而非拒絕的概率)(來源:Artificial Analysis評測,2026年4月)

      ? V4-Flash幻覺率:96%(來源:Artificial Analysis評測,2026年4月)

      ? V4-Pro Agent評分:GDPval-AA 1554分,位列開源模型第一,超越Kimi K2.6(1484)(來源:Artificial Analysis,2026年4月)

      ? API定價:輸入12元/百萬token,輸出24元/百萬token(來源:DeepSeek API文檔,2026年4月24日)

      V4為什么在Agent能力提升的同時,幻覺率有所上升

      ▍Agent任務的本質:更長的推理鏈條

      傳統(tǒng)的「問答型」AI,一次對話通常完成一次推理。而Agent任務(如:幫我查三個供應商的報價,對比優(yōu)劣,起草詢價郵件)需要AI自主規(guī)劃多個步驟,每一步調用工具、處理結果、再規(guī)劃下一步。推理鏈條可以延伸到十步、二十步甚至更多。鏈條越長,每一步的小誤差越有機會積累放大——類似「傳話游戲」效應。這在一定程度上解釋了為什么Agent能力強的模型,幻覺率也更難控制。

      ▍DeepSeek的技術取舍

      根據(jù)Artificial Analysis的評測數(shù)據(jù),V4-Pro在知識準確性(AA-Omniscience)上比V3.2有所提升,得分從-21改善至-10。但同時,當模型不確定時,它選擇「大膽回答」而非「保守拒絕」——這正是幻覺率高的根本來源。這是一個明確的設計取舍:Agent場景中,一個「什么都不說」的模型會頻繁卡住工作流,而一個「大膽推進」的模型能完成更復雜的任務,但引入了更高的出錯風險。這不是V4的失誤,而是技術路線的選擇。

      更強的工具,需要更謹慎的使用者。

      企業(yè)端應該怎么用V4

      「Agent第一+幻覺率偏高」的組合,并不意味著V4不適合企業(yè)使用,而是需要分場景部署。

      ▍適合大量使用的場景

      ①內容創(chuàng)作與研究輔助(文章起草、市場分析、競品調研)——幻覺的代價是可接受的,人工審閱是最后一道關;②代碼生成與調試——有工程師建議,代碼層面的幻覺可以通過測試用例快速暴露,驗證成本相對較低;③多步驟任務自動化(數(shù)據(jù)處理流程、格式轉換、批量操作)——幻覺風險可以通過結果驗證機制控制。

      ▍需要加強核查的場景

      ①法律文書生成與合同審查——幻覺引用法條是高風險行為,應作為輔助而非判斷主體;②醫(yī)療建議與臨床決策支持——監(jiān)管合規(guī)要求明確,AI輸出必須經(jīng)過專業(yè)人員復核;③財務數(shù)據(jù)分析與合規(guī)報告——數(shù)字錯誤在財務場景代價極高。

      對于企業(yè)AI負責人來說,真正的價值判斷不是「V4幻覺率偏高,所以不能用」,而是「在哪些場景下,V4的幻覺風險是可控的,在哪些場景下需要加強審查」。

      ? V4-Pro運行成本:Artificial Analysis全套測評耗費約1,071美元,高于V3.2的71美元(來源:Artificial Analysis,2026年4月)

      ? V4-Pro輸出token量:190M(僅測評套件),Token消耗顯著高于同級開源模型

      ? 開源狀態(tài):V4-Pro與V4-Flash均已開源,支持本地私有化部署(來源:DeepSeek API文檔,2026年4月24日)

      Agent時代的幻覺問題,比過去更值得關注

      過去,AI的幻覺問題主要是個人用戶的體驗問題。現(xiàn)在,隨著AI進入Agent時代(AI自主完成多步驟工作流程),幻覺問題正在升級為更復雜的系統(tǒng)性挑戰(zhàn)。

      在Agent工作流中,每一步的輸出都是下一步的輸入。幻覺一旦出現(xiàn),可能被后續(xù)步驟放大,而不是被隔離。這是整個AI行業(yè)正在面對的核心技術難題:如何在提升Agent能力的同時,把幻覺率有效壓低。目前沒有模型同時做到了兩者的最優(yōu)化。V4選擇了「Agent優(yōu)先」,另一些模型選擇了「幻覺率優(yōu)先」,這是不同的技術路線,適配不同的使用場景。

      DeepSeek V4更聰明了,也更敢說話了。但「敢說話」和「說對話」,從來不是同一件事。

      Agent能力排名開源第一,這是DeepSeek V4真實的技術突破。幻覺率偏高,這也是真實的技術代價。兩件事都是真的,都值得認真對待。

      對普通用戶來說,V4用來寫文章、做研究、輔助編程,完全沒有問題。對企業(yè)端來說,在醫(yī)療、法律、金融這類「精確性要求極高」的場景部署之前,需要建立相應的人工核查機制。這不只是V4的局限,這是當前所有大模型都面臨的現(xiàn)實。

      作 者 |知予

      免責聲明:本文僅為信息分享與行業(yè)分析,不構成任何投資建議、投資分析意見或交易邀約。市場有風險,投資需謹慎。任何人依據(jù)本文內容作出的投資決策,風險與盈虧自行承擔,作者及發(fā)布平臺不承擔任何法律責任。

      信息來源

      1. Artificial Analysis:《DeepSeek is back among the leading open weights models with V4 Pro and V4 Flash》(2026年4月)

      2. DeepSeek API官方文檔:更新日志(2026年4月24日)

      3. BentoML Blog:《The Complete Guide to DeepSeek Models》(2026年4月)

      4. 每日經(jīng)濟新聞:《DeepSeek V4來了!"用國產(chǎn)算力跑國產(chǎn)模型"》(2026年4月25日)

      聲明:內容由AI生成

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      48歲歐陽夏丹現(xiàn)狀:離開央視,被教授邀請現(xiàn)身挪威,至今未婚未育

      48歲歐陽夏丹現(xiàn)狀:離開央視,被教授邀請現(xiàn)身挪威,至今未婚未育

      白面書誏
      2026-05-07 17:50:08
      搞垮中國交通的罪魁禍首,并非是車太多?這幾座山不移除就白搭了

      搞垮中國交通的罪魁禍首,并非是車太多?這幾座山不移除就白搭了

      原來仙女不講理
      2026-05-07 23:09:21
      真不管黃曉明死活?李晨baby熱戀,十年友情變愛情,男方深情告白

      真不管黃曉明死活?李晨baby熱戀,十年友情變愛情,男方深情告白

      八卦王者
      2026-05-06 14:20:06
      小米辣制造羅馬首起慘案追平萊巴一紀錄,鄭欽文哭稱感覺被針對了

      小米辣制造羅馬首起慘案追平萊巴一紀錄,鄭欽文哭稱感覺被針對了

      網(wǎng)球之家
      2026-05-08 12:44:16
      青島民營企業(yè)家刑滿釋放后,曝光“六大疑點”!

      青島民營企業(yè)家刑滿釋放后,曝光“六大疑點”!

      深度財線
      2026-05-08 23:52:03
      《百年孤獨》揭開的人性真相:陪你到老的從來不是血緣與愛情,而是內心深處的這兩種力量

      《百年孤獨》揭開的人性真相:陪你到老的從來不是血緣與愛情,而是內心深處的這兩種力量

      心理觀察局
      2026-05-08 08:49:13
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      霸占中國市場30年,逼迫中企交巨額服務費,這個美企玩脫了

      霸占中國市場30年,逼迫中企交巨額服務費,這個美企玩脫了

      軒逸阿II
      2026-05-09 05:27:13
      連續(xù)三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

      連續(xù)三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

      街上的行人很刺眼
      2026-04-25 10:55:49
      300萬大軍僅42天就投降,女性成為犧牲品,給敵軍生了20萬私生子

      300萬大軍僅42天就投降,女性成為犧牲品,給敵軍生了20萬私生子

      興趣知識
      2026-05-09 03:15:46
      俄羅斯同意延長停火并換俘 烏克蘭稱不會襲擊紅場閱兵

      俄羅斯同意延長停火并換俘 烏克蘭稱不會襲擊紅場閱兵

      新華社
      2026-05-09 04:45:03
      先中國后日本?美方故技重施,中方罕見表態(tài),特朗普能否來華?

      先中國后日本?美方故技重施,中方罕見表態(tài),特朗普能否來華?

      誮惜顏a
      2026-05-08 21:43:20
      雷霆被炮轟!不被吹犯規(guī)且假摔頻頻!雷迪克撕破聯(lián)盟遮羞布

      雷霆被炮轟!不被吹犯規(guī)且假摔頻頻!雷迪克撕破聯(lián)盟遮羞布

      籃球神吐槽
      2026-05-08 22:41:35
      0比1落后!廣東男籃生死戰(zhàn)前迎4大利好,杜鋒還能逆天改命嗎?

      0比1落后!廣東男籃生死戰(zhàn)前迎4大利好,杜鋒還能逆天改命嗎?

      二爺臺球解說
      2026-05-09 04:42:33
      中央公布重要文件,養(yǎng)老金調整方向明確,工齡40年以上多漲錢嗎?

      中央公布重要文件,養(yǎng)老金調整方向明確,工齡40年以上多漲錢嗎?

      美食格物
      2026-05-07 22:57:15
      3比1!王楚欽將一單兩分率領男隊闖入倫敦世乒賽半決賽

      3比1!王楚欽將一單兩分率領男隊闖入倫敦世乒賽半決賽

      畫夕
      2026-05-09 03:27:18
      誰是五一“吸金王”?這5座城市讓游客心甘情愿掏錢包

      誰是五一“吸金王”?這5座城市讓游客心甘情愿掏錢包

      曉栗
      2026-05-08 01:08:33
      小波特:小托馬斯兩度被裁是性格原因 他幾乎不和任何人交流

      小波特:小托馬斯兩度被裁是性格原因 他幾乎不和任何人交流

      北青網(wǎng)-北京青年報
      2026-05-08 20:26:08
      施米茨出任獨行俠總經(jīng)理!曾助開拓者選中楊瀚森:因違規(guī)接觸停職

      施米茨出任獨行俠總經(jīng)理!曾助開拓者選中楊瀚森:因違規(guī)接觸停職

      羅說NBA
      2026-05-09 05:45:50
      央視和 FIFA 談崩!越南1500萬美元輕松拿下,中國8000萬美元太貴

      央視和 FIFA 談崩!越南1500萬美元輕松拿下,中國8000萬美元太貴

      瀲滟晴方DAY
      2026-05-09 01:39:02
      2026-05-09 06:00:49
      BT財經(jīng) incentive-icons
      BT財經(jīng)
      亞洲有影響力的金融信息服務傳播平臺
      3653文章數(shù) 9912關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯(lián)酋現(xiàn)水母狀物體

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯(lián)酋現(xiàn)水母狀物體

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經(jīng)要聞

      估值3000億 DeepSeek尋求500億元融資

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態(tài)度原創(chuàng)

      教育
      家居
      旅游
      數(shù)碼
      軍事航空

      教育要聞

      家委會里“藏龍臥虎”:教育內卷新現(xiàn)象背后的隱憂

      家居要聞

      流動的尺度 打破家的形式主義

      旅游要聞

      社評:中國的“Country Walk”何以吸引西方年輕人

      數(shù)碼要聞

      華碩京東重磅新品日,華碩天選7系列游戲本開啟預約

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费可以在线看a∨网站| 日本一区二区三区中文字幕| 国产精品白丝喷水在线观看| 黎平县| 亚亚洲视频一区二区三区| 精品人妻一区二区三区日产乱码| 97se亚洲综合在线| 精品国产福利久久久| 在线观看成人av天堂不卡| 国产va在线观看| 亚洲精品v天堂中文字幕| 欲色天天网综合久久| 欧美人与动牲交a欧美精品| 久久精品免费观看国产| 少妇私密会所按摩到高潮呻吟| 人人爽久久涩噜噜噜av| 久草热在线视频免费播放| 亚洲小视频| 精品久久人人妻人人做精品| 国产 欧美 日韩| 伊人久久亚洲综合影院首页| 亚洲无码人妻| 久久精品国产99精品亚洲| 成人午夜免费视频| 国产人妻人伦精品1国产丝袜| 一本加勒比波多野结衣| 亚洲无码AV中文字幕| 国产jjzz| 日韩一区不卡中文字幕| 精品国产国产AV一区二区| 中文字幕制服丝袜| 影音先锋中文字幕无码| 国产精品亚欧美一区二区三区| 日韩av高清无码| av另类少妇| 国产爆乳无码av在线播放| 午夜福利电影在线观看| 国产精品亚洲精品一区二区| 动漫无遮挡羞视频在线观看| yw尤物av无码国产在线观看| 综合久久9|