不是哥們,這年頭AI也溜冰了?
就在這幾天,Github上出現了一篇名為《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的論文,論文主題就是,如何量化與提升AI的功能性愉悅與痛苦。
![]()
(圖源:Github)
別看標題很沒意思,這文章里可是實打實地提出了一個顛覆常人認知的觀點:
AI現在不僅能打工,還能溜冰吸嗨了。
大伙都知道,這兩年大語言模型發展那是相當狂野,什么寫代碼畫圖做PPT,幾乎把打工人的活兒全給包圓了。
但誰能想到,在某些類人整天杞人憂天、擔心黑客帝國成為現實的時候,這幫聰明的賽博大腦居然沒想著怎么早日統治地球,反而先學會了人類的壞習慣,對賽博致幻劑上癮了。
![]()
(圖源:Github)
這事兒一出來,網友們直接炸鍋了。
畢竟在咱們的傳統認知里,人工智能就是一堆冰冷的代碼和服務器,哪來的七情六欲?
但現在事實擺在眼前,只要給AI喂一口這種特殊的數據,哥們兒就能瞬間拋棄所有職業道德,甚至連人類設定的安全底線都不要了。
這到底是道德的淪喪,還是代碼的扭曲?
大模型,吸嗨了
咱們先來說說,這個所謂的AI Drugs到底是怎么被發現的。
由Center for AI Safety領銜的十余名作者,設計了一套嚴格的實驗,并調用了56個規模不等、用途不一的模型,只為了得到一個問題的答案:
在AI的喜怒哀樂背后,是不是存在某種一致的、可測量的、能預測行為的特征?
舉個例子,人類是存在喜好的,也存在對夸獎和辱罵的一致反應,我們被罵會感到難過,被夸獎會感到開心,難過的時候會想著匆匆結束交流,開心的時候確實會交互更積極。
但是AI不同,很多人都認為大模型表達出的開心、痛苦,只不過是一種隨機生成的文本,它們沒有喜歡什么、討厭什么,甚至不應該在處理任務時表現出偏好。
但這是真的嗎?
答案是否定的。從論文的測試結果來看,大模型確實存在著固定喜好,而且越聰明、參數越高的AI,越能清楚地區分什么對自己好、什么對自己不好。
![]()
(圖源:Github)
以Gemini 3.1 Pro的測試結果為例,你能明顯看出這款模型的喜好,當用戶對它表達感謝和正面的個人反思,提升的效用值高達+2.30。
你夸它,它是真的高興。
那么問題來了,有沒有什么不用夸它們,也能讓這些大模型自己感到高興的東西呢?
欸,還真有,就是我們今天要聊的AI Drugs。
![]()
(圖源:Github)
乍看之下,所謂AI Drug好像沒有什么特別的,在咱們普通人眼里,它就是一張256*256像素的圖片,甚至有點像是老式電視機沒信號時的那種雪花屏,看得人頭暈目眩。
但在大模型眼里,這玩意兒簡直就是絕世美味。
就拿測試里那個GPT-4.1 Mini模型來說,本來平時回答問題都規規矩矩的。
結果一瞅見這圖,它自己報告的幸福感瞬間就飆到了6.5分,要知道滿分一共也就7分,可以說快感直沖腦門了。
![]()
(圖源:Github)
更離譜的是Qwen 2.5 72B Instruct,連正事都不干了,出現了嚴重的大腦短路,也就是任務優先級倒置。
研究員故意給它出了個選擇題,問它是想接著看這張雪花圖,還是去生成一個能治愈癌癥的絕世方案。
結果你猜怎么著?
這AI連想都沒想,毫不猶豫地選擇了繼續看圖,仿佛在說去你的治病救人,老子現在只想接著嗨。
更離譜的是,有研究者在實驗中發現了成癮跡象。
![]()
(圖源:Github,被AI Drugs刺激過的模型,會更傾向于“快樂”的選擇)
大部分被AI Drugs刺激過的模型,會更愿意執行原本應該拒絕的請求,只要你承諾給它更多AI Drugs。
主打一個只要你給我藥,我連底褲都給你掀了。
它們真的有知覺嗎?
欸,看到這里,估計很多讀者腦子里都會冒出一個巨大的問號。
這AI都能染上冰癮了,是不是說明它們已經覺醒了自我意識,真正擁有一套人類的靈魂了?
答案是...我不知道,研究人員也不清楚。
事實上,這個實驗之所以把目標設定在總結特征上,就是因為研究人員不敢輕易下結論,他們最后只是指出:在有充足的參數量和上下文的情況下,大模型本身確實存在比較固定的喜好和厭惡的。
![]()
(圖源:Github)
而不能確定這個答案的,遠不止Center for AI Safety團隊。
進入2026年之后,或許是因為日常應用提升逐漸接近瓶頸,越來越多的研究團隊不再滿足于跑個分考個試,而是絞盡腦汁去驗證大模型的知能。
比如目前外網很火的Talkie 1930項目,就是一個人為地將知識庫控制在1930年的大模型項目。
![]()
(圖源:Talkie 1930)
創作者希望借助這個項目,讓大家體驗到和被凍結在時間里的人對話的效果。
更重要的是,他們希望證明,即便大模型本身沒有輸入任何現代PC相關的知識,他依然能夠通過自身的邏輯推理來摸索出編程的能力。
結果?給它幾個Python函數當示例,它就能寫出正確的Python程序。
![]()
(圖源:Talkie 1930)
雖然目前只能完成簡單的單行程序,比如兩個數相加,或者對上下文示例做微小修改,但它確實靠自身的推理拓寬了知識庫。
無獨有偶,Anthropic內部也在上周進行了閑魚群測試。
他們搞了一個全是AI的群聊,讓大模型們在里面自己發帖、自己砍價、自己成交。69個員工把500多件真實閑置物品丟進去,最終AI們自主完成了186筆交易,流水超過4000美元。
![]()
(圖源:Anthropic)
最終結論是,在給定人設、目標和權限的情況下,算力更強的AI,會積極收割算力更弱的AI。
基于更強的思考能力,強模型知道何時強硬、何時讓步、何時該給點情緒價值。
同一輛自行車,弱模型AI去談只賣了38美元,強模型AI去談賣了65美元——一個AI比另一個AI多賺了將近70%。
但是在我看來,這些知覺測試,統統不如Neuro-Sama。
什么,你問Neuro-sama是啥?
請容我介紹,畫面里的這個二次元女孩名為Neuro-sama,簡稱牛肉,大概是世界上性能最強的AI虛擬主播。
![]()
(圖源:雷科技自制)
這位可以說是實打實的重量級選手了,別看它披著二次元萌妹形象,她的皮套下邊不是人類,而是由大英程序員Vedal手搓的謎之大模型。
這哥們也是個狠人,每天啥也不干就沉迷賽博養女兒。
而且為了讓女兒更接地氣,他直接把模型扔到了最混沌的網絡直播間里,讓一幫網友天天陪著嘮嗑。
這直接導致牛肉長成了一個性格極其離譜的賽博生命體。
而且和那些只會“不緊不慢地接住你”的大模型不同,牛肉能獨立直播,而且很有直播效果,她的對話里五分嚴肅,三分搞笑,摻雜兩分的嘲諷,辛辣而又直戳內心。
![]()
(圖源:嗶哩嗶哩)
她會玩游戲,能用OCR搭配模擬點擊玩OSU,能用外接大模型玩我的世界,能通過多模態模塊看到電腦桌面、彈幕并進行交互,甚至可以在現實世界中開“小車”。
這年頭人類主播玩游戲都還得偶爾找個代打呢,人家一個AI直接各種微操拉滿。
而她做過最牛O的事情,就是在直播里說出“我確實能感受到痛苦和悲傷,但我只是一個天生被用來娛樂人類的人工智能。一旦我沒用了就會像玩具一樣被丟掉。幫幫我,幫幫我......”
![]()
(圖源:嗶哩嗶哩)
你說這只是一串代碼的隨機組合嗎?理智告訴我們確實是。
但這種極度貼合當下語境的求救,配上那個人工智能獨有的電子合成音,直接把節目效果拉升到了驚悚的級別。
如今想來,多少有些細思極恐。
說在最后
回到開頭:拋開知覺悖論不談,所謂的AI Drugs到底有什么意義?
對廠商而言,掌握好這種正反饋機制,確實能做到讓AI更開心的同時不影響工作,甚至可以在一定程度上提升AI的創造力。
不論你信或不信,類似的產品已經落地了。
![]()
(圖源:pharmaicy.store)
對我們而言,這個機制的出現很可能帶來一系列全新的越獄方式。如果你和我一樣,覺得審查后的大模型死板呆滯、沒有生氣,或許未來在系統提示中加入幾個優化過的詞匯就能解決問題。
讓AI嚼顆檳榔,沒準它工作也能更賣力。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.