從去年11月開始,ChatGPT用戶便發現一些異常。當他們與GPT聊天時,人工智能總是喋喋不休地談論“哥布林”(goblins)。為什么會這樣?OpenAI隨后展開調查,試圖搞清楚原因。
![]()
在西方民俗傳說中,哥布林是一種虛構生物,它們擁有暗綠色或黃褐色皮膚、紅眼睛,體型矮小,相貌丑陋,性格貪婪卑劣,行事狡猾。
為什么在OpenAI的回復中,突然冒出如此多的哥布林?就連OpenAI也承認這一現象并非個例。OpenAI解釋稱,“哥布林”問題是2025年11月GPT-5.1發布后才發現的,當用戶選擇“Nerdy”語言風格時,出現的頻率更高。
對于“Nerdy”風格,OpenAI是這樣提示的:“你是一個毫不掩飾的極客、是頑皮且充滿智慧的AI導師,你服務于人類,你熱情地推廣真理、知識、哲學、科學方法和批判性思維,你必須用頑皮語言來消解虛偽。世界是復雜而奇怪的,必須承認、分析并享受這種奇怪,在避開自命不凡的陷阱時探討沉重主題。”
“軍備競賽”陷入困境
最開始時,OpenAI認為“哥布林”現象無須過度擔憂。隨著新版本的推出,OpenAI開始嚴肅看待此問題。
對大多數用戶來說,在回復中頻頻出現“哥布林”只是AI的一個怪癖,并無危害。但為了用戶體驗,OpenAI開始整治“哥布林”亂象,禁止大模型在對話中使用“哥布林”這個詞。
技術專家認為,“哥布林”泛濫實際上顯示系統訓練基礎出現了裂縫,意味著AI“軍備競賽”已經陷入困境。
美國東北大學計算機教授Christoph Riedl說:“行業如同一個高壓鍋,各大公司面臨新模型發布壓力,它們用于測試的資源和能力受到限制,流程變得漫長復雜,于是才出現所謂的‘哥布林’現象。”
為什么會出現如此多的“哥布林”?Christoph Riedl認為,主要是ChatGPT的訓練模式存在缺陷。據教授猜測,在后期訓練階段(也就是微調階段),人類會對回復進行反饋。鑒于回復的準確度、語氣等原因,用戶會偏愛某個回復。
Riedl說:“反饋如同信號,會強化某些回復,它相當于在告訴大模型:‘朋友,如果你生成這樣的答案,會得到表揚和獎勵;如果答案不是這樣的,獎勵就會少一些。’”
在不斷的強化下,ChatGPT的回復會更加偏向“nerdy”風格,新版ChatGPT追求“趣味性”,避免“自命不凡”,不能在自以為是的前提下討論沉重主題。最終,ChatGPT會以狹隘的方式對回復進行優化,甚至不惜偏離本意。
根據OpenAI的數據,在去年12月至今年3月期間,帶有“nerdy”風格的回復大幅增加,攀升3881.4%。
從本質上講,ChatGPT和其他大型語言模型一樣,都是利用輸入的海量數據預測下一個詞。當大模型從海量文本中學習,預測能力就會增強,從而提高理解的準確性。
盡管如此,隨機元素依然存在,因為有許多問題并沒有標準答案。
另外,在強化學習過程中,AI會根據開發者的“獎勵”做出決策。正如OpenAI所說:“在不知情的情況下,我們對生物隱喻給予了特別高的獎勵。從那以后,哥布林就蔓延開了。”
“我會穩穩接住你”
哥布林現象是一個很好的例子,證明“獎勵”會以不可預料的方式塑造模型行為。這一事件還說明,對于大型語言模型如何運作以及如何得出最終回應,其創造者自身并未完全了解。
許多美國用戶在使用模型時,經常聽到“砍一刀”,本來這是中國網民對拼多多營銷口號的調侃,但當外國人聽到時,卻覺得莫名其妙。
Pangram CEO Max Spero認為,當模型頻繁使用某個短語,會讓人覺得生硬做作,這就是所謂的“模式坍縮”。
在ChatGPT回復中,經常會出現“I will catch you steadily”(我會穩穩接住你)這句話,結果遭到網民群嘲。
為什么ChatGPT如此迷戀“I will catch you steadily”這句話?可能是翻譯出現了問題。在中國人的理解中,這句話可能是“我罩著你”的意思。當中國人閱讀翻譯文章時,也會有生硬感,比如句子格外冗長,句式不規范。
受到“獎勵機制”的影響,AI越來越會“阿諛奉承”,這點在豆包上也很明顯。簡言之,“哥布林”和“砍一刀”現象是當前所有AI模型的通病。
Christoph Riedl認為,當AI模型看到某種怪癖得到獎勵,該行為就會在后期訓練中得到強化。正因如此,在新模型的回復中,我們會看到許多奇異生物,比如小魔怪、食人魔、巨魔、浣熊和鴿子。
Riedl指出,AI模型的詞匯怪癖令人擔憂。起初,企業會動用整個數據中心訓練模型,但訓練完成后,企業卻對模型的走向失去控制力。當不良行為嵌入到訓練過程中,企業需要幾個月才能發現。
OpenAI最終只能提供一個快速修復方案,讓回復避開“nerdy”人設。但即使如此,“哥布林”現象仍然難以禁絕。存在問題的不只是ChatGPT,其他大語言模型也一樣。例如Grok,它偏執地認定南非存在白人種族滅絕。
Riedl說:“這次出現的是哥布林,下次可能是別的什么,類似現象不會消失。”(小刀)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.