![]()
OpenAI近日公開說明了旗下模型出現(xiàn)"哥布林問題"的來龍去脈。此前,《連線》雜志的一篇報(bào)道揭露,OpenAI在其編程模型中明確寫入指令,要求模型"永遠(yuǎn)不要提及哥布林、小妖精、浣熊、巨魔、食人魔、鴿子或其他動(dòng)物和生物"。對此,OpenAI在其官網(wǎng)發(fā)文進(jìn)行了解釋,將模型頻繁提及這些生物的現(xiàn)象稱為訓(xùn)練過程中形成的一種"奇怪習(xí)慣"。
根據(jù)該博客文章,OpenAI最早是在GPT-5.1模型中注意到大量涉及哥布林等生物的比喻表達(dá)——尤其集中出現(xiàn)在"書呆子(Nerdy)"個(gè)性選項(xiàng)被激活時(shí)。隨著后續(xù)模型版本的迭代,這一問題持續(xù)加劇。OpenAI最終查明,強(qiáng)化訓(xùn)練機(jī)制對"書呆子"個(gè)性下出現(xiàn)的這類奇特比喻給予了正向獎(jiǎng)勵(lì),而這些輸出內(nèi)容又被用于訓(xùn)練后續(xù)模型,導(dǎo)致問題不斷擴(kuò)散。
這種獎(jiǎng)勵(lì)機(jī)制本只作用于"書呆子"模式,然而強(qiáng)化學(xué)習(xí)并不能保證習(xí)得的行為嚴(yán)格局限于觸發(fā)它的特定條件之內(nèi)。一旦某種風(fēng)格習(xí)慣獲得獎(jiǎng)勵(lì),后續(xù)訓(xùn)練便可能使其在其他場景中擴(kuò)散或被強(qiáng)化,尤其是當(dāng)這些輸出被重新用于有監(jiān)督微調(diào)或偏好數(shù)據(jù)時(shí),問題會(huì)進(jìn)一步放大。
今年3月,OpenAI正式停用了"書呆子"個(gè)性選項(xiàng),哥布林和小妖精相關(guān)的表達(dá)隨之明顯減少,但并未徹底消失。由于OpenAI在找到"根本原因"之前已開始訓(xùn)練GPT-5.5(即集成于Codex編程工具中的版本),該模型中相關(guān)表達(dá)依然存在。為此,OpenAI不得不為Codex專門寫入指令,明確禁止其提及這些神話生物。不過,如果你恰好喜歡讓AI在編寫代碼時(shí)夾帶一些哥布林風(fēng)格,OpenAI也分享了一種撤銷該限制的方法。
Q&A
Q1:OpenAI模型為什么會(huì)頻繁提到哥布林?
A:這是模型訓(xùn)練過程中產(chǎn)生的"奇怪習(xí)慣"。問題源于GPT-5.1的"書呆子(Nerdy)"個(gè)性選項(xiàng)——強(qiáng)化訓(xùn)練對該模式下出現(xiàn)的哥布林等生物比喻給予了正向獎(jiǎng)勵(lì)。由于強(qiáng)化學(xué)習(xí)無法保證習(xí)得行為嚴(yán)格限定在特定條件內(nèi),這種風(fēng)格習(xí)慣在后續(xù)模型版本中持續(xù)擴(kuò)散,最終演變成一個(gè)普遍性問題。
Q2:OpenAI是如何解決哥布林問題的?
A:OpenAI采取了兩步措施:首先于2025年3月停用了"書呆子"個(gè)性選項(xiàng),使相關(guān)表達(dá)明顯減少;其次,由于GPT-5.5(Codex)的訓(xùn)練早于根本原因的查明,OpenAI專門為其寫入了禁止提及哥布林等生物的明確指令,以此作為臨時(shí)解決方案。
Q3:普通用戶可以讓GPT模型繼續(xù)使用哥布林風(fēng)格的表達(dá)嗎?
A:可以。盡管OpenAI默認(rèn)禁止模型提及哥布林等神話生物,但官方也公開分享了一種撤銷該限制的方法,有興趣的用戶可以通過該方式讓模型恢復(fù)帶有哥布林風(fēng)格的輸出。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.