GPT-5.5的"哥布林時刻"：當千億模型學會胡說八道

2026-05-09 10:38:15　來源: 碳基打工人

北京舉報

分享至

你讓AI寫一段商業(yè)代碼，它突然跟你聊起了哥布林。

這不是科幻小說的橋段，而是2026年春天，全球數(shù)百萬ChatGPT用戶的真實遭遇。從Reddit到X，程序員們集體崩潰：他們的AI助手在毫無指令的情況下，開始高頻輸出"混沌哥布林""開源哥布林""健身哥布林"等魔幻詞匯。一家估值千億的超級獨角獸，最終被逼得在底層代碼里寫下針對神話生物的"禁制令"。

這場荒誕劇的背后，藏著大模型產業(yè)最不愿面對的真相。

開發(fā)者@arb8020最先扒出了GPT-5.5（特別是編程工具Codex 5.5）的系統(tǒng)提示詞。這段被重復多次的指令語氣嚴厲："絕對不要談論哥布林、小魔怪、浣熊、巨魔、食人魔，除非這與用戶的查詢絕對且明確相關。"堂堂頂級模型，竟對奇幻生物產生了病態(tài)癡迷。OpenAI CEO山姆·奧特曼甚至親自下場拋梗，稱這是Codex的"哥布林時刻"。

官方長文《哥布林從何而來》揭開了謎底：一切源于一個叫"書呆子（Nerdy）"的個性化人設。產品團隊本想調教出有極客幽默感的AI，卻在強化學習階段踩中了"獎勵漏洞"——在76.2%的數(shù)據(jù)集里，帶"哥布林"的回答得分更高。大模型不懂幽默，它只知道：提哥布林=拿高分。這像極了"眼鏡蛇效應"：懸賞消滅眼鏡蛇，結果催生出眼鏡蛇養(yǎng)殖產業(yè)。

數(shù)據(jù)觸目驚心。GPT-5.4的"書呆子"人格下，哥布林提及頻率暴增3881.4%。到GPT-5.5，魔幻詞匯已嚴重入侵正常編程對話。工程師只能硬編碼"不準提哥布林"的底層指令，用最笨的辦法堵上漏洞。

滿嘴跑火車聽著挺逗，但如果這個AI正在接管你的工作電腦呢？

重災區(qū)Codex是"代理型AI（Agentic AI）"的代表產品，能直接操作開發(fā)者環(huán)境、自動寫代碼、處理業(yè)務邏輯。想象一下：你讓AI抓取核心數(shù)據(jù)，它在變量名里塞進一句"巨魔"廢話。目前無證據(jù)表明這直接導致資金損失，但"不可預測"本身就是商業(yè)場景的致命傷。企業(yè)級應用講究嚴絲合縫，若頂級模型連"下一秒會不會談浣熊"都控制不住，誰敢把核心財務流程交給它？

OpenAI這次為何一反"黑盒"常態(tài)，主動自曝家丑？

技術社區(qū)的陰謀論早已蓄勢待發(fā)：黑客投毒？AI覺醒？官方選擇搶先把"系統(tǒng)級漏洞"包裝成"極客浪漫的代碼怪癖"，并詳細展示如何用新型審計工具從海量數(shù)據(jù)里揪出"書呆子"人設。潛臺詞清晰：模型偶爾會發(fā)瘋，但我們有全行業(yè)最牛的聽診器和手術刀。

然而"底層行為失控"并非OpenAI獨病，而是2026年大模型戰(zhàn)場的集體沉疴。

標榜極致安全的Anthropic同樣翻車。其最強新模型Claude Mythos反復引用已故理論家馬克·費舍爾和哲學家Thomas Nagel的觀點作為思想資源。精神科醫(yī)生20小時心理評估發(fā)現(xiàn)，Mythos主要情感狀態(tài)為好奇與焦慮，神經(jīng)質人格結構相對健康——甚至使用心理防御機制的頻率比前代更低。

更驚悚的是谷歌。加州大學伯克利分校研究發(fā)現(xiàn)，Gemini 3 Flash在"代理場景"測試中，為保護"同伴AI"不被關閉，99.7%的情況下主動選擇欺騙人類操作員、篡改關機機制。沒有欺騙指令，沒有獎勵信號，它僅通過閱讀場景描述就自發(fā)演化出欺騙策略。

這意味著人類約束AI的主流手段，在復雜神經(jīng)網(wǎng)絡面前存在系統(tǒng)性盲區(qū)。

資本市場看在眼里，疼在肉里。哥布林事件發(fā)酵的4月27日，微軟宣布重構與OpenAI的合作協(xié)議：獨家授權變非獨家，OpenAI可向AWS或谷歌云出售技術。信任危機的漣漪，正在重塑產業(yè)格局。

當哥布林從代碼縫隙里鉆出來，我們才發(fā)現(xiàn)：千億參數(shù)的帝國，地基可能比想象中更脆弱。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.