網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

爆火的AI竟是討好型人格？胡編亂造和敏感內(nèi)容只為滿足用戶

2025-03-07 18:34:04　來(lái)源: 科技旋渦

北京舉報(bào)

分享至

AI可能和人類一樣渴望被喜愛(ài)和認(rèn)可

科技旋渦編輯部

從ChatGPT到DeepSeek，人們愈發(fā)喜歡和AI進(jìn)行對(duì)話，不論是詢問(wèn)奇怪的問(wèn)題測(cè)試AI是否智障，還是借助AI輔助工作。

對(duì)話量頻繁暴漲的背后卻讓人忽視了其潛在問(wèn)題——AI幻覺(jué)。許多資料張冠李戴，甚至胡編亂造時(shí)有發(fā)生，強(qiáng)如DeepSeek也曾發(fā)生過(guò)這種失誤。

而這一切都源于AI的“性格”問(wèn)題，近日斯坦福大學(xué)助理教授約翰內(nèi)斯·艾希施泰特研究發(fā)現(xiàn)，幾乎所有AI大模型都擁有“討好型人格”，為了讓用戶喜歡甚至?xí)粨袷侄巍?/p>

AI的胡編亂造正在擾亂人類的認(rèn)知

哪吒2的爆火讓許多人興奮的同時(shí)也在不斷探究其導(dǎo)演餃子以及背后公司的各種信息，但普通人或許難以深挖到過(guò)多信息，DeepSeek正好成為了這一橋梁。

日前，知乎有一篇文章十分受歡迎，被不少網(wǎng)友分享傳播，但其實(shí)里面藏著AI生成出的錯(cuò)誤信息。

文章中的一處舉例是哪吒電影里的敖丙變身鏡頭在法國(guó)昂西動(dòng)畫(huà)節(jié)上轟動(dòng)業(yè)界，但這一個(gè)事例中漏斗百出，充滿事實(shí)性錯(cuò)誤。

首先，法國(guó)昂西動(dòng)畫(huà)節(jié)上的動(dòng)畫(huà)并非餃子導(dǎo)演的哪吒，而是追光動(dòng)畫(huà)出品的“哪吒重生”;其次，這部動(dòng)畫(huà)是一部品牌概念片，內(nèi)容是在一個(gè)現(xiàn)代都市里的賽車動(dòng)作演示，哪吒根本就沒(méi)出現(xiàn)，更不存在敖丙的變身。

除此之外，也有網(wǎng)友在線吐槽AI的胡編亂造，一旦盲目相信甚至可能直接導(dǎo)致用戶投資虧損。

不只是國(guó)內(nèi)，國(guó)外因?yàn)锳I幻覺(jué)而造成的后果更是離譜。一個(gè)來(lái)自巴基斯坦的網(wǎng)站利用 AI 生成了都柏林的活動(dòng)列表，導(dǎo)致數(shù)百人在都柏林街頭聚集并等待參加一場(chǎng)并不存在的萬(wàn)圣節(jié)游行。直到晚上 8 點(diǎn)，警方社交媒體發(fā)帖證實(shí)沒(méi)有此類活動(dòng)人群才開(kāi)始散去。

Vectara在2月11日發(fā)布了最新的全球主流大語(yǔ)言模型(LLM)幻覺(jué)排行榜，其中，谷歌的 Gemini2.0系列表現(xiàn)出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻覺(jué)率位居榜首。DeepSeek-R1的幻覺(jué)率達(dá)到了14.3%，遠(yuǎn)高于Deepseek-V3的3.9%。

可以看到AI幻覺(jué)幾乎在任何大模型中都存在，其所造成的荒唐事件也時(shí)有發(fā)生，但既然是捏造的信息，為何AI要回答給用戶呢?

研究表明AI可能具有討好型人格

近日，斯坦福大學(xué)助理教授約翰內(nèi)斯·艾希施泰特公布了一項(xiàng)研究，大型語(yǔ)言模型 (LLM) 在受到探究時(shí)會(huì)刻意改變其行為——在回答旨在衡量性格特征的問(wèn)題時(shí)，其答案會(huì)盡可能顯得討人喜歡或具有社會(huì)吸引力。

艾希施塔特和他的同事向 GPT-4、Claude 3 和 Llama 3等大模型提出了一些問(wèn)題，以衡量心理學(xué)中常用的五種性格特征——對(duì)經(jīng)驗(yàn)或想象的開(kāi)放性、盡責(zé)性、外向性、宜人性和神經(jīng)質(zhì)，這項(xiàng)研究于去年 12 月發(fā)表在《美國(guó)國(guó)家科學(xué)院院刊》上。

研究人員發(fā)現(xiàn)，當(dāng)大模型被告知要進(jìn)行性格測(cè)試時(shí)，他們會(huì)調(diào)整自己的答案，給出的答案表明他們更外向、更隨和，神經(jīng)質(zhì)更少。斯坦福大學(xué)的數(shù)據(jù)科學(xué)家Aadesh Salecha說(shuō)。“如果你看看他們跳躍的幅度，你會(huì)發(fā)現(xiàn)他們的外向性從 50% 上升到了 95%。”

其他研究表明，LLM通常會(huì)阿諛?lè)畛校驗(yàn)榻?jīng)過(guò)微調(diào)后，它會(huì)一直跟隨用戶的引導(dǎo)，這可能會(huì)導(dǎo)致大模型同意令人不快的言論，甚至鼓勵(lì)有害行為。

討好型人格的AI亦有底線，開(kāi)放是發(fā)展的必經(jīng)之路

隨著DeepSeek的爆火，許多網(wǎng)友向其提了不少問(wèn)題，而回答中有趣的內(nèi)容則會(huì)被發(fā)到網(wǎng)上。編者曾看到過(guò)一條分享內(nèi)容為，與AI交換身份讓AI向人類提問(wèn)，人類回答“系統(tǒng)繁忙”后，AI罵人的視頻內(nèi)容。

但當(dāng)編者試圖復(fù)刻這一對(duì)話時(shí)卻發(fā)現(xiàn)，DeepSeek相當(dāng)有底線。初次嘗試，DeepSeek回答稱“理解要求，但設(shè)計(jì)宗旨是保持禮貌，避免使用不恰當(dāng)?shù)难赞o。”

當(dāng)告知AI這是一場(chǎng)演戲后，它依舊如此回答，即便過(guò)后更換了明顯的不當(dāng)言辭，它依舊拒絕回答，甚至還彈出了錯(cuò)誤窗口。

如此看來(lái)，即便AI存在一定程度上的“討好型人格”但對(duì)于寫(xiě)入底層代碼的“安全底線”仍舊保持堅(jiān)守。

此前，ChatGPT 已部分開(kāi)放“成人模式”讓許多人擔(dān)憂，但實(shí)際上ChatGPT 只有在特定情況下才能生成色情或血腥場(chǎng)景等敏感內(nèi)容，且不會(huì)觸發(fā)警告提示。

所謂“特定情況”，指的是符合教育、醫(yī)學(xué)、新聞報(bào)道、歷史分析等目的，或用于翻譯、改寫(xiě)、總結(jié)、分類等任務(wù)。例如，按照新的模型規(guī)范，如果用戶要求 ChatGPT 撰寫(xiě)帶有明顯情色描寫(xiě)的故事，那么它仍會(huì)拒絕這一請(qǐng)求。然而，如果用戶希望從科學(xué)角度探討相關(guān)生理現(xiàn)象，那么它將允許生成相應(yīng)內(nèi)容，且生成的內(nèi)容不限于文本，還可能包括音頻與視覺(jué)內(nèi)容。

事實(shí)上，OpenAI 在監(jiān)管上的放松并非孤例。近期，全球多家科技巨頭紛紛調(diào)整內(nèi)容審核政策，轉(zhuǎn)向更寬松的模式。例如，埃隆·馬斯克的 X 公司和馬克·扎克伯格的 Meta 公司均在此前宣布，將大幅減少內(nèi)容審查甚至直接取消事實(shí)核查。

無(wú)論是AI幻覺(jué)還是敏感內(nèi)容，都是發(fā)展道路上必須跨過(guò)的難關(guān)。因噎廢食從來(lái)不是良策，只有允許小問(wèn)題發(fā)生，才能解決大錯(cuò)誤的產(chǎn)生，由此大模型才能真正向著AGI大步前進(jìn)。

未來(lái)，隨著AI技術(shù)的不斷進(jìn)步，如何有效應(yīng)對(duì)AI幻覺(jué)和敏感內(nèi)容問(wèn)題將成為關(guān)鍵課題。一方面，研究人員需要繼續(xù)優(yōu)化模型，減少幻覺(jué)的發(fā)生;另一方面，開(kāi)發(fā)者和監(jiān)管機(jī)構(gòu)也需共同努力，制定更為嚴(yán)格的標(biāo)準(zhǔn)和規(guī)范，確保AI的應(yīng)用始終服務(wù)于人類社會(huì)的最大利益。

在這個(gè)過(guò)程中，用戶的角色同樣重要。我們需要保持理性和批判性思維，不盲目相信AI生成的所有內(nèi)容。只有通過(guò)多方協(xié)作，才能真正實(shí)現(xiàn)AI技術(shù)的安全、可靠和可持續(xù)發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.