OpenAI解釋為何禁止模型談?wù)?quot;哥布林"

2026-05-06 21:54:04　來源: 至頂科技

北京舉報(bào)

分享至

OpenAI近日公開說明了旗下模型出現(xiàn)"哥布林問題"的來龍去脈。此前，《連線》雜志的一篇報(bào)道揭露，OpenAI在其編程模型中明確寫入指令，要求模型"永遠(yuǎn)不要提及哥布林、小妖精、浣熊、巨魔、食人魔、鴿子或其他動(dòng)物和生物"。對此，OpenAI在其官網(wǎng)發(fā)文進(jìn)行了解釋，將模型頻繁提及這些生物的現(xiàn)象稱為訓(xùn)練過程中形成的一種"奇怪習(xí)慣"。

根據(jù)該博客文章，OpenAI最早是在GPT-5.1模型中注意到大量涉及哥布林等生物的比喻表達(dá)——尤其集中出現(xiàn)在"書呆子（Nerdy）"個(gè)性選項(xiàng)被激活時(shí)。隨著后續(xù)模型版本的迭代，這一問題持續(xù)加劇。OpenAI最終查明，強(qiáng)化訓(xùn)練機(jī)制對"書呆子"個(gè)性下出現(xiàn)的這類奇特比喻給予了正向獎(jiǎng)勵(lì)，而這些輸出內(nèi)容又被用于訓(xùn)練后續(xù)模型，導(dǎo)致問題不斷擴(kuò)散。

這種獎(jiǎng)勵(lì)機(jī)制本只作用于"書呆子"模式，然而強(qiáng)化學(xué)習(xí)并不能保證習(xí)得的行為嚴(yán)格局限于觸發(fā)它的特定條件之內(nèi)。一旦某種風(fēng)格習(xí)慣獲得獎(jiǎng)勵(lì)，后續(xù)訓(xùn)練便可能使其在其他場景中擴(kuò)散或被強(qiáng)化，尤其是當(dāng)這些輸出被重新用于有監(jiān)督微調(diào)或偏好數(shù)據(jù)時(shí)，問題會(huì)進(jìn)一步放大。

今年3月，OpenAI正式停用了"書呆子"個(gè)性選項(xiàng)，哥布林和小妖精相關(guān)的表達(dá)隨之明顯減少，但并未徹底消失。由于OpenAI在找到"根本原因"之前已開始訓(xùn)練GPT-5.5（即集成于Codex編程工具中的版本），該模型中相關(guān)表達(dá)依然存在。為此，OpenAI不得不為Codex專門寫入指令，明確禁止其提及這些神話生物。不過，如果你恰好喜歡讓AI在編寫代碼時(shí)夾帶一些哥布林風(fēng)格，OpenAI也分享了一種撤銷該限制的方法。

Q&A

Q1：OpenAI模型為什么會(huì)頻繁提到哥布林？

A：這是模型訓(xùn)練過程中產(chǎn)生的"奇怪習(xí)慣"。問題源于GPT-5.1的"書呆子（Nerdy）"個(gè)性選項(xiàng)——強(qiáng)化訓(xùn)練對該模式下出現(xiàn)的哥布林等生物比喻給予了正向獎(jiǎng)勵(lì)。由于強(qiáng)化學(xué)習(xí)無法保證習(xí)得行為嚴(yán)格限定在特定條件內(nèi)，這種風(fēng)格習(xí)慣在后續(xù)模型版本中持續(xù)擴(kuò)散，最終演變成一個(gè)普遍性問題。

Q2：OpenAI是如何解決哥布林問題的？

A：OpenAI采取了兩步措施：首先于2025年3月停用了"書呆子"個(gè)性選項(xiàng)，使相關(guān)表達(dá)明顯減少；其次，由于GPT-5.5（Codex）的訓(xùn)練早于根本原因的查明，OpenAI專門為其寫入了禁止提及哥布林等生物的明確指令，以此作為臨時(shí)解決方案。

Q3：普通用戶可以讓GPT模型繼續(xù)使用哥布林風(fēng)格的表達(dá)嗎？

A：可以。盡管OpenAI默認(rèn)禁止模型提及哥布林等神話生物，但官方也公開分享了一種撤銷該限制的方法，有興趣的用戶可以通過該方式讓模型恢復(fù)帶有哥布林風(fēng)格的輸出。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.