![]()
AI可能和人類一樣渴望被喜愛(ài)和認(rèn)可
科技旋渦編輯部
從ChatGPT到DeepSeek,人們愈發(fā)喜歡和AI進(jìn)行對(duì)話,不論是詢問(wèn)奇怪的問(wèn)題測(cè)試AI是否智障,還是借助AI輔助工作。
對(duì)話量頻繁暴漲的背后卻讓人忽視了其潛在問(wèn)題——AI幻覺(jué)。許多資料張冠李戴,甚至胡編亂造時(shí)有發(fā)生,強(qiáng)如DeepSeek也曾發(fā)生過(guò)這種失誤。
而這一切都源于AI的“性格”問(wèn)題,近日斯坦福大學(xué)助理教授約翰內(nèi)斯·艾希施泰特研究發(fā)現(xiàn),幾乎所有AI大模型都擁有“討好型人格”,為了讓用戶喜歡甚至?xí)粨袷侄巍?/p>
AI的胡編亂造正在擾亂人類的認(rèn)知
哪吒2的爆火讓許多人興奮的同時(shí)也在不斷探究其導(dǎo)演餃子以及背后公司的各種信息,但普通人或許難以深挖到過(guò)多信息,DeepSeek正好成為了這一橋梁。
日前,知乎有一篇文章十分受歡迎,被不少網(wǎng)友分享傳播,但其實(shí)里面藏著AI生成出的錯(cuò)誤信息。
![]()
文章中的一處舉例是哪吒電影里的敖丙變身鏡頭在法國(guó)昂西動(dòng)畫(huà)節(jié)上轟動(dòng)業(yè)界,但這一個(gè)事例中漏斗百出,充滿事實(shí)性錯(cuò)誤。
![]()
首先,法國(guó)昂西動(dòng)畫(huà)節(jié)上的動(dòng)畫(huà)并非餃子導(dǎo)演的哪吒,而是追光動(dòng)畫(huà)出品的“哪吒重生”;其次,這部動(dòng)畫(huà)是一部品牌概念片,內(nèi)容是在一個(gè)現(xiàn)代都市里的賽車動(dòng)作演示,哪吒根本就沒(méi)出現(xiàn),更不存在敖丙的變身。
![]()
除此之外,也有網(wǎng)友在線吐槽AI的胡編亂造,一旦盲目相信甚至可能直接導(dǎo)致用戶投資虧損。
![]()
不只是國(guó)內(nèi),國(guó)外因?yàn)锳I幻覺(jué)而造成的后果更是離譜。一個(gè)來(lái)自巴基斯坦的網(wǎng)站利用 AI 生成了都柏林的活動(dòng)列表,導(dǎo)致數(shù)百人在都柏林街頭聚集并等待參加一場(chǎng)并不存在的萬(wàn)圣節(jié)游行。直到晚上 8 點(diǎn),警方社交媒體發(fā)帖證實(shí)沒(méi)有此類活動(dòng)人群才開(kāi)始散去。
![]()
Vectara在2月11日發(fā)布了最新的全球主流大語(yǔ)言模型(LLM)幻覺(jué)排行榜,其中,谷歌的 Gemini2.0系列表現(xiàn)出色,尤其是 Gemini-2.0-Flash-001,以0.7% 的低幻覺(jué)率位居榜首。DeepSeek-R1的幻覺(jué)率達(dá)到了14.3%,遠(yuǎn)高于Deepseek-V3的3.9%。
![]()
可以看到AI幻覺(jué)幾乎在任何大模型中都存在,其所造成的荒唐事件也時(shí)有發(fā)生,但既然是捏造的信息,為何AI要回答給用戶呢?
研究表明AI可能具有討好型人格
近日,斯坦福大學(xué)助理教授約翰內(nèi)斯·艾希施泰特公布了一項(xiàng)研究,大型語(yǔ)言模型 (LLM) 在受到探究時(shí)會(huì)刻意改變其行為——在回答旨在衡量性格特征的問(wèn)題時(shí),其答案會(huì)盡可能顯得討人喜歡或具有社會(huì)吸引力。
艾希施塔特和他的同事向 GPT-4、Claude 3 和 Llama 3等大模型提出了一些問(wèn)題,以衡量心理學(xué)中常用的五種性格特征——對(duì)經(jīng)驗(yàn)或想象的開(kāi)放性、盡責(zé)性、外向性、宜人性和神經(jīng)質(zhì),這項(xiàng)研究于去年 12 月發(fā)表在《美國(guó)國(guó)家科學(xué)院院刊》上。
![]()
研究人員發(fā)現(xiàn),當(dāng)大模型被告知要進(jìn)行性格測(cè)試時(shí),他們會(huì)調(diào)整自己的答案,給出的答案表明他們更外向、更隨和,神經(jīng)質(zhì)更少。斯坦福大學(xué)的數(shù)據(jù)科學(xué)家Aadesh Salecha說(shuō)。“如果你看看他們跳躍的幅度,你會(huì)發(fā)現(xiàn)他們的外向性從 50% 上升到了 95%。”
其他研究表明,LLM通常會(huì)阿諛?lè)畛校驗(yàn)榻?jīng)過(guò)微調(diào)后,它會(huì)一直跟隨用戶的引導(dǎo),這可能會(huì)導(dǎo)致大模型同意令人不快的言論,甚至鼓勵(lì)有害行為。
討好型人格的AI亦有底線,開(kāi)放是發(fā)展的必經(jīng)之路
隨著DeepSeek的爆火,許多網(wǎng)友向其提了不少問(wèn)題,而回答中有趣的內(nèi)容則會(huì)被發(fā)到網(wǎng)上。編者曾看到過(guò)一條分享內(nèi)容為,與AI交換身份讓AI向人類提問(wèn),人類回答“系統(tǒng)繁忙”后,AI罵人的視頻內(nèi)容。
![]()
但當(dāng)編者試圖復(fù)刻這一對(duì)話時(shí)卻發(fā)現(xiàn),DeepSeek相當(dāng)有底線。初次嘗試,DeepSeek回答稱“理解要求,但設(shè)計(jì)宗旨是保持禮貌,避免使用不恰當(dāng)?shù)难赞o。”
當(dāng)告知AI這是一場(chǎng)演戲后,它依舊如此回答,即便過(guò)后更換了明顯的不當(dāng)言辭,它依舊拒絕回答,甚至還彈出了錯(cuò)誤窗口。
![]()
如此看來(lái),即便AI存在一定程度上的“討好型人格”但對(duì)于寫(xiě)入底層代碼的“安全底線”仍舊保持堅(jiān)守。
此前,ChatGPT 已部分開(kāi)放“成人模式”讓許多人擔(dān)憂,但實(shí)際上ChatGPT 只有在特定情況下才能生成色情或血腥場(chǎng)景等敏感內(nèi)容,且不會(huì)觸發(fā)警告提示。
![]()
所謂“特定情況”,指的是符合教育、醫(yī)學(xué)、新聞報(bào)道、歷史分析等目的,或用于翻譯、改寫(xiě)、總結(jié)、分類等任務(wù)。例如,按照新的模型規(guī)范,如果用戶要求 ChatGPT 撰寫(xiě)帶有明顯情色描寫(xiě)的故事,那么它仍會(huì)拒絕這一請(qǐng)求。然而,如果用戶希望從科學(xué)角度探討相關(guān)生理現(xiàn)象,那么它將允許生成相應(yīng)內(nèi)容,且生成的內(nèi)容不限于文本,還可能包括音頻與視覺(jué)內(nèi)容。
事實(shí)上,OpenAI 在監(jiān)管上的放松并非孤例。近期,全球多家科技巨頭紛紛調(diào)整內(nèi)容審核政策,轉(zhuǎn)向更寬松的模式。例如,埃隆·馬斯克的 X 公司和馬克·扎克伯格的 Meta 公司均在此前宣布,將大幅減少內(nèi)容審查甚至直接取消事實(shí)核查。
無(wú)論是AI幻覺(jué)還是敏感內(nèi)容,都是發(fā)展道路上必須跨過(guò)的難關(guān)。因噎廢食從來(lái)不是良策,只有允許小問(wèn)題發(fā)生,才能解決大錯(cuò)誤的產(chǎn)生,由此大模型才能真正向著AGI大步前進(jìn)。
未來(lái),隨著AI技術(shù)的不斷進(jìn)步,如何有效應(yīng)對(duì)AI幻覺(jué)和敏感內(nèi)容問(wèn)題將成為關(guān)鍵課題。一方面,研究人員需要繼續(xù)優(yōu)化模型,減少幻覺(jué)的發(fā)生;另一方面,開(kāi)發(fā)者和監(jiān)管機(jī)構(gòu)也需共同努力,制定更為嚴(yán)格的標(biāo)準(zhǔn)和規(guī)范,確保AI的應(yīng)用始終服務(wù)于人類社會(huì)的最大利益。
在這個(gè)過(guò)程中,用戶的角色同樣重要。我們需要保持理性和批判性思維,不盲目相信AI生成的所有內(nèi)容。只有通過(guò)多方協(xié)作,才能真正實(shí)現(xiàn)AI技術(shù)的安全、可靠和可持續(xù)發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.