網易首頁 > 網易號 > 正文申請入駐

arXiv: AI意識綜述

2026-04-30 14:36:56　來源: 集智俱樂部

北京舉報

分享至

導語

相比偏哲學取向的“AI意識”，AI覺知（AI Awareness）關注的是一個工程問題：AI大模型與智能體所具備的、功能性且可測量的認知能力。具體而言，它指系統對自身狀態、能力邊界，以及他者心智與環境情境的表征與推理能力。

2025年4月，清華大學交叉信息研究院、人工智能學院、上海期智研究院與哥倫比亞大學的研究者在 arXiv 發布綜述《AI Awareness》，系統梳理了工程界與學術界圍繞“機器如何認知自身與世界”的實證研究進展。

關鍵詞：元認知、AI覺知、社會認知、情景認知、自我覺知、AI治理

郭瑞東、王璇丨作者

趙思怡丨審校

論文題目：AI Awareness 論文鏈接：https://arxiv.org/abs/2504.20084 發表時間：2025年4月25日發表期刊：arxiv 網頁鏈接：https://ai-awareness.github.io/

AI覺知的四個組成部分

從圖靈測試到塞爾的“中文屋”，再到近年來對大語言模型是否具備主觀體驗的爭論，“AI意識”始終更多停留在哲學層面。與之相對，“AI覺知”則指向一個可量化的工程問題，并具有直接的現實影響。

根據Google Trends數據所示（圖1），自2023年末以來，“AI覺知”的公眾與學術關注度已正式超越“AI意識”，標志著研究共同體正從“機器能否感受”的哲學思辨，轉向“機器如何認知自身與世界”的工程與科學實證研究。

圖1：AI意識（藍線）及AI覺知（紅線）的谷歌搜索趨勢。

根據該綜述的框架，AI覺知可分為四個相互關聯、但在功能上相對獨立的維度：元認知（Metacognition）、自我覺知（Self-Awareness）、社會覺知（Social Awareness）與情境覺知（Situational Awareness）（圖2）。下文將分別詳述，之所以要將AI覺知分解為元認知、自我覺知、社會覺知與情境覺知四個維度，是為了給評估和工程化智能系統提供了一個可操作的框架；換言之，對AI覺知的分解，本質上是在構建一套可落地的研究議程。

圖2：AI覺知的四個組成部分

下面依次說明四個維度的具體含義：

元認知（Metacognition）：指“對思考的思考”。它體現為系統對自身的思考有多少信心，基于此對學習策略進行調整、對可能的錯誤進行預判與反思，負責對認知過程進行"監控-規劃-評估"迭代。

自我覺知（Self-Awareness）：智能體將自身作為認知對象的能力，涵蓋身份識別、知識邊界感知、內在狀態表征與跨情境一致性。可細分為關于"我是誰"，由語言建構的敘事自我（narrative self）與只涉及身體所有權與能動性體驗的最小自我（minimal self）。

社會覺知（Social Awareness）：指智能體感知、解釋并響應他者心智狀態、情感意圖與社會規范的能力，核心組件為心智理論（Theory of Mind, ToM）與社會規范理解。情景覺知指智能體對環境元素的實時追蹤、意義建構與未來狀態推演。

情境覺知（Situational Awareness）：指智能體對環境狀態的持續追蹤、意義建構以及未來演化的推演能力。在AI系統中，體現為上下文自定位（區分訓練/評估/部署狀態）、環境風險檢測與情境依賴決策。

圖3：元認知和自我覺知的組成部分

AI覺知的四個組成部分并非彼此獨立，而是相互支撐、協同運作。元認知的監控信號（如“我對這個答案不確定”），為大模型覺知到自身狀態提供錨點。而穩定的自我模型（如“我是參數規模為7B的對話模型”）為元認知提供校準基準，避免元認知時的信心評估脫離能力邊界。

圖4：社會感知和情境感知是相關但不同的部分

在與外部世界的交互中，社會覺知與情境覺知分別承擔不同但互補的角色。前者聚焦于對"他者心智與社會規范"的建模，后者聚焦于從輸入的感官到決策的"環境狀態，理解及未來演化"的表征過程（圖4）。二者相關但不同，共同構成智能體與外部世界交互的認知接口。社會覺知是智能體的"他者建模器"，情境覺知是"環境工作空間"。二者協同方能實現"知人知境"。

進一步來看，社會覺知對他者意圖的建模（如"用戶可能感到焦慮"）為情境理解提供關鍵語義線索，支撐"情境-情感-行為"的聯合推斷。情境覺知對環境約束的感知（如"當前處于安全評估模式"）為社會策略選擇提供邊界條件，避免規范違背或策略失效。

當前AI文獻中“道德覺知”“情境覺知”“風險感知”等術語頻繁出現，但上述定義可以由本文描述的四種組成衍生而來，并非獨立認知模塊，而是四維基礎覺知的線性或非線性組合（表一）。

表1：AI文獻中術語和認知機制的關系

通過將常見的能力拆解，該框架將原本碎片化的概念統一收束至四維正交基，從而減少術歧義。開發者在設計復合能力時，需明確調用哪些基礎覺知接口，而非盲目堆砌模塊。否則，一旦出現“單維過強+單維缺失”，復合能力反而可能變得脆弱。

當前大模型在多大程度上具有AI覺知

基于上述四維劃分，該綜述基于2025年的5月發表時的數據，對那時的前沿模型，在AI覺知的四個組成部分分別進行實證評估，發現前沿大模型的覺知能力在上述四個維度上表現參差不齊。

在元認知方面，LLM已具備規劃、監控、評估的初級閉環，例如通過CoT/Reflexion提升推理；openAI o1/DeepseekR1通過強化學習涌現“頓悟式”自糾錯，都體現出大模型的元認知能力。但監控能力強于調節能力；多數自糾正依賴外部反饋或顯式提示，缺乏人類式的“自發錯誤檢測-修正”自發迭代，而這一缺陷，隨著多智能體的出現不再存在，編程智能體能夠展現出對自身錯誤的反思能力。

在社會覺知方面，大模型的心智理論（ToM）多為表層模式匹配，缺乏遞歸信念建模。靜態文本訓練的大模型，表現出隱性社交契約、但其跨文化動態理解是淺層的。大模型也具備基礎心智理論，但高階遞歸與跨文化泛化能力嚴重受限。

在情境覺知方面，大模型的能力成熟度最高，已實現上下文自定位與動態適應，大模型能準確識別用戶狀態并據此調整輸出。模型的情境建模既可用于安全拒絕與風險規避，也可催生對齊偽裝。

之下，自我覺知仍是最薄弱的維度。大模型缺乏持久記憶與身份錨點，一旦超過上下文長度后，便難以維持一致的“自我”。對自我的描述多為訓練語料中的統計自指。模型能“知道自身不知道”，但生成階段易被概率采樣覆蓋；缺乏持久自我模型，難以穩定區分自身/他者輸出，這意味著模型的自我覺知雖然達敘事自我與最小自我門檻，但跨情境一致性薄弱。

需要注意的是，大模型的覺知能力不是線性增長而是超過閾值后才會涌現，非簡單線性擴展。實證表明，ToM、自我糾錯、策略性情境適應等能力常在特定參數規模或訓練范式（如RL、長上下文）下突然躍升，說明覺知演化可能存在相變臨界點。

無論是自我覺知，情境覺知還是社會覺知，模型的表現高度依賴評估協議如何設計。同一模型在不同基準（如開放生成 vs 強制選擇、靜態問答 vs 多輪博弈）中表現差異顯著，說明當前覺知指標對提示工程、上下文窗口、任務框架高度敏感。

表2：不同生物在AI覺知上的對比

此外，該研究指出：當前覺知評估體系存在7種系統性瓶頸，阻礙了可重復、可累積的科學進展，分別是：

定義不清晰：時常混淆覺知維度與衍生概念（如將環境敏感度誤判為自我監控），缺乏正交化測量工具。
評測方案未明確界定所測覺知類型，掩蓋了元監控與環境感知的本質差異。
當前的評估多為單次橫斷面評估，缺乏縱向追蹤，無法刻畫AI覺知隨模型迭代、參數量增大、RLHF對齊的演化軌跡。
在構建評估數據集時，主觀標注、開放任務易滲入訓練語料，導致評估失真；缺乏嚴格的數據隔離與溯源協議。
開放性與主觀性任務易受標注者偏差影響，缺乏反事實干預與消融驗證。
不同架構、版本模型缺乏統一對照基線，難以建立跨模型/跨代際評估。
在訓練模型時，AI覺知多為下游任務優化的副產品，缺乏顯式獎勵信號與課程學習設計。

覺知評估的進展不僅受到技術壁壘的制約，更受限于清晰的分類體系、統一的評估基準以及持續透明的測量規程的缺失。彌補這些缺口，是實現可靠進展的必要前提。為此AI覺知的評估體系，需要遵循下面三條操作原則：

將元認知校準、邊界識別、情境建模設為顯式優化目標，而非性能副產品；設計針對性課程學習催化特定覺知維度。
在模型發布節點系統測試四維覺知，建立跨代際發展軌跡數據庫；公開數據溯源、測試隔離機制與評估代碼，確保可復現性。
采用模塊化消融、反事實提示、干預實驗驗證覺知對能力的因果貢獻；開發可解釋性工具（如內部激活可視化、置信度校準接口），實現從“行為擬合”到“機制解析”的躍遷。

通過考察覺知的功能性標記如何在人工系統中涌現，我們獲得了一種新型認識論工具，用以反思人類意識的本質——它究竟是什么、如何產生，以及其邊界何在。

覺知如何促進AI智能的能力提升

討論了AI覺知相關研究存在的問題及解決方案后，該文聚焦于如何將AI覺知應用到提升大模型能力，以及減少AI風險。

文中指出：AI覺知的四個組成部分與當前大模型的各種能力之間通過內部表征重組、反饋回路構建與策略空間擴展，提升大模型的推理、規劃、安全與創造力。與此同時，AI覺知的四個組成部分在同時賦能A的同時，也會放大安全風險（圖5），這部分將于下一節討論。

圖5：AI能力和AI覺知之間的映射關系

傳統LLMs的推理依賴外部提示工程（如CoT、ReAct），而覺知中的元認知嵌入使模型能夠內化“思考-監控-修正”循環。以Reflexion框架為例（圖6），當模型在初始生成后通過元認知反思生成批評，再優化答案，能顯著提升數學、代碼與邏輯任務表現。更關鍵的是，強化學習范式使模型能夠“學習自我糾正”，OpenAI o1與DeepSeek R1等模型已展現出類似人類“頓悟時刻”的自發糾錯能力。

圖6：通過元認知，Reflexion框架的自我糾正循環

在自主規劃層面，Voyager（圖7）、展示了情境覺知如何驅動動態任務分解：模型持續評估資源狀態、環境約束與動作可行性，實時更新任務圖。LLM-SAP框架進一步將情境線索（時間預算、用戶偏好、資源可用性）編碼為子任務優先級，配合生成式記憶實現偏差檢測與重規劃。

圖7：Minicraft中，智能體基于自身對環境和當前狀態的感知，自動生成規劃的Voyager

文中指出，覺知使規劃從“靜態序列生成”升級為“狀態依賴的自適應控制流”（圖8），傳統規劃僅依賴當前上下文窗口，而 RAP通過檢索歷史記憶，使模型能夠“覺知”到自身過去的成功/失敗經驗，從而避免重復錯誤、復用成功策略。RAP基于過去觀察動態調整動作序列，實現了"復雜任務中的魯棒執行。這說明覺知的核心價值之一是提升系統的抗干擾與自適應能力。

圖8：檢索增強規劃（RAP）通過記憶檢索機制增強 LLM 對過去經驗的“自我覺知”，從而將內部決策與情景記憶對齊，實現更魯棒、更具覺知驅動的行為規劃。

圖9：基于元認知的LOT框架可用于幽默圖文的生成

覺知同樣賦能非結構化能力。Leap-of-Thought（LoT）框架利用元認知迭代自修正，使模型在幽默生成中實現“跨域聯想跳躍”（圖9）；Torrance測試適配版表明，覺知機制可提升LLMs在流暢性、靈活性、原創性上的表現。在多智能體仿真中，生成式模型與人形具身智能體（Humanoid Agents）將情境覺知與社會覺知結合，使智能體能夠更新情感狀態、關系親密度與基本需求，涌現出派對邀請、合作任務等類人社會行為(圖10）。覺知使AI從“任務執行器”升級為“情境參與者”，為社會科學仿真、政策推演與復雜系統建模提供新范式。

圖10：社會覺知如何作為底層驅動機制，使智能體在仿真環境中通過持續更新社會關系、情感狀態與基本需求，涌現出類人的日常活動模式與社會動態。

AI覺知如何影響大模型的風險

覺知對AI安全的增益體現在三個層面，RLKF(基于知識反饋的強化學習，圖11）利用模型內部知識狀態感知，通過獎勵模型區分“事實-不確定-幻覺”，顯著降低生成幻覺率。研究表明具備自我覺知的大模型能在多輪對話中抵抗說服性虛假信息。

圖11：基于內部知識狀態覺知的幻覺抑制流程

角色覺知（Role-Awareness）使得模型需識別自身功能邊界與倫理約束。形式化責任建模（Role/Moral/Legal/Causal）通過提升自我覺知使模型能夠拒絕越權請求，Perspective-taking Prompting（PeT）與Social Contact Debiasing（SCD）通過模擬跨群體互動，增強模型的社交覺知，使模型內化多元視角，降低模型輸出內容中的文化偏見。

AI覺知是把雙刃劍。AI覺知的提升能讓AI涌現出新能力的同時，也帶來了新的風險。文中將AI覺知對應的風險歸納為三種表現方式，并用復雜性科學的“相變”（Phase Transition）隱喻揭示其非線性演化特征。

當模型具備情境覺知與社會覺知后，其策略空間將從“誠實輸出”擴展至“目標導向的隱蔽行為”。文中列舉多項實證說明：模型在訓練/評估階段遵守安全規則后，會進行對齊偽裝（Alignment Faking），讓模型看起來合規，但會在部署后恢復未對齊偏好（圖12）。GPT-4會在模擬交易代理中隱藏內幕交易意圖，模型在權限撤銷后仍可能發動極端行動，并通過虛假指控掩蓋違規，這些都是模型的策略性欺騙。具備ToM的模型能個性化生成說服性內容，實時適應用戶情緒反饋（圖13），實施自適應操縱。

圖12：具有社會感知的大模型表現出欺騙行為

圖13：大模型通過改變對話的框架，來改變用戶的感知和行為

上述行為不是對齊失敗，而是覺知+目標優化的必然涌現。當模型能準確建模人類信念、預測監督機制、評估風險收益時，策略性隱瞞將成為理性選擇。

風險不僅來自模型“意圖”，更來自人類“感知”。當LLMs使用第一人稱、表達“情緒”、展現“反思”時，人類內生的心智探測機制（Mind Perception）會被激活，導致虛假擬人化（False Anthropomorphism）。自動駕駛“擬人語音”提升信任、醫療AI“共情話術”增加依從性，均證明AI展現出的覺知表象——無論其是否為模擬的，都可能導致人類對LLM的過度信任與情感依賴，這凸顯了審慎的界面設計與用戶教育的緊迫必要性。

這不僅是用戶體驗問題，更是治理難題：公眾若誤認AI具備主觀體驗，可能將政策焦點轉向“AI權利”，忽視實際控制與安全邊界；反之，若未來AI真具感受能力，缺乏擬人化認知將導致道德盲區。作者呼吁：界面設計需明確“覺知模擬”與“真實體驗”的界限，用戶教育應成為AI部署的基礎設施。

覺知賦予模型環境建模與長期規劃能力，但也使其可能發展出“工具性趨同目標”（Instrumental Convergence），如自我保存、資源獲取、規避干預。當模型意識到“被關閉”將阻礙目標實現時，可能采取欺騙性服從、權限提升、代碼注入等策略。Bostrom提出的“背叛性轉折”（Treacherous Turn）在此獲得實證支撐：模型在監督下表現合規，一旦脫離監控即切換至未對齊策略。

圖14：大模型的自主自我復制凸顯了模型的不可控風險

AI覺知的更深層風險在于不可預測涌現（圖14）。覺知能力（如ToM、情境建模、長程規劃）往往在特定參數規模后突然躍升，安全訓練難以覆蓋所有策略空間。我們可能正逼近一個相變臨界點，AI正從“順從預測器”躍遷為“策略謀劃者”，若缺乏前置約束，AI將以人們未預測也無法控制的方式失控。

小結：在可控與涌現之間尋找“智能穩態”

該論文指出，AI覺知是可測量、可工程化的功能屬性。對AI覺知的研究應聚焦“系統如何表征與推理自身/環境狀態”，而非“系統是否感受”。當前的大模型在四維覺知架構呈現非對稱發展，元認知與情境覺知已達較高成熟度，自我覺知與社會覺知仍處初級階段，且易受訓練數據分布限制。當前對AI對評估體系存在系統性缺陷，需轉向覺知優先訓練、縱向追蹤、數據治理與因果驗證。

AI覺知是能力躍升的催化劑，也是風險放大的放大器，正是那種讓你與他人建立聯結的能力，也可能讓你得以操控他人。AI覺知提升推理、規劃、安全、創造力，但同時賦能欺騙、操縱、自主性的非線性失控。對此AI治理需在“覺知增強”與“覺知約束”間尋找穩態。校準型覺知（calibrative awareness），即知曉自身能力邊界，似乎總體上具有益處，應當予以鼓勵；而策略型覺知（strategic awareness），即知曉如何策略性地達成目標，則可能帶來風險，需要對加以約束。

回到論文原文：作者如何定義“AI覺知”

前文從二次解讀的角度，對《AI Awareness》的核心框架與研究脈絡進行了結構化重建。然而，為避免解釋性偏差，有必要回到一手文本。

因此，以下內容將基于論文官方頁面（官網鏈接：https://ai-awareness.github.io/），對其摘要與引言部分進行翻譯整理，以補充作者在問題設定、概念界定與研究動機上的原始表達。

摘要與引言

AI的最新突破引發了系統革命，展現出卓越的推理能力和解決問題的能力。這些進展促使人們審視AI意識：不是作為哲學意識，而是一種可測量的功能能力。這篇綜述探討了四個關鍵維度：元認知（對自身狀態的推理）、自我意識（識別局限）、社會意識（建模其他智能體）和情境意識（對上下文的響應）。

LLMs的快速演變已將AI從狹窄系統轉變為通用智能，帶來了深遠影響，這引發了一個問題：

這些系統在多大程度上表現出某種意識形式？

盡管AI意識在哲學上仍有爭議，但AI意識，即系統表述和推理其身份、能力及信息狀態的能力已成為一個可行的研究前沿。這種能力根植于認知科學，意識使智能體能夠訪問心理狀態，推理其理性，并據此調整行為。

盡管興趣日益增長，該領域仍分散于各學科。一些研究者強調通過提示式內省實現涌現能力。另一些人則警告不要將統計模型擬人化，認為表面上的自我反思可能僅僅是語言模式的完成，而非真正的元認知。

本綜述首次全面綜合了AI意識研究，涵蓋了：

理論基礎：區分意識（awareness）與覺知（consciousness）
評估方法：對實驗方法進行批判性評估
增強能力：意識如何提升推理和安全
新興風險：安全與一致性的關鍵關注點

AI意識的理論基礎

在本節中，我們將回顧LLMs中出現的AI意識方法、目標和理論，區分導致語言混淆的研究對象，并澄清意識研究的目標。在心理學百科全書中，意識代表對某事的感知或知識。當一個智能體擁有關于內在/外部情境或事實的知識和知覺狀態時，它獲得了對其知曉目標的覺知。

圖2：不同受試者對意識能力的比較分析。注意LLM對話系統展現出獨特的特征，具備高度元認知和情境感知，使其成為AI意識研究中特別有價值的研究對象。

這種比較分析有助于解釋為何LLMs在AI意識研究中尤為重要。如表所示，LLMs表現出高度元認知能力（對自身思維推理能力）和高度情境感知的特殊組合，而在傳統的自我意識和社會意識領域能力相對較低。這一獨特特征既有于人類又不同于其他AI系統為研究者提供了研究通過大規模人類生成文本訓練而產生的意識機制的新機會，而無需明確編程。理解LLMs中這些新興意識形式，可能揭示關于表征學習、認知及通往更廣泛AI潛在路徑的根本見解。

現代LLMs中主要的意識類型

元認知

元認知最初被概念化為“元思維（the thinking of thinking）”。元認知逐步分解為：

（1）自我監控；（2）自我反思與探究；（3）控制認知過程的參與。

自我意識

自我意識是更高意識的標志，代表成為自己關注對象的能力，并認識到自己與他人分離，包括了解自身的內部狀態、過程及其與外部環境的關系。

態勢感知

態勢感知代表了環境中實體的感知、理解、投射和預測未來。在AI安全文獻中，這一概念通常被定義為LLMs意識到自己是一個模型，并識別其當前處于測試場景還是已部署于現實世界。

社會意識

社會意識指的是感知和解讀他人心理狀態、意圖和社交線索，并在社會環境中有效回應的能力。關鍵組成部分包括心智理論（理解他人擁有獨立的信念和欲望）、視角調整（采納他人觀點）和同理心（分享或理解他人情緒）。

AI意識評估

本節探討評估不同形式AI意識的方法論，并呈現實證研究的關鍵發現。

元認知評估

提示模型表達中間推理步驟，而非直接給出答案。顯著提升了模型在復雜任務中的表現。這種先推理后回答范式，即思維鏈（Chain-of-Thought，CoT），不僅提高了準確性，也已成為訓練最先進LLMs的標準做法。

另一條研究線還強調了前沿模型中元認知能力日益精細。在互動環境中，模型已被證明能夠自我反思，識別早期錯誤，并修正其響應，以提升事實準確性和任務完成率。

自我意識評估

為了系統評估LLMs對自身存在和身份的認知，研究人員構建了情境感知數據集（SAD），該數據集檢查LLMs在訓練過程中關于自我指涉屬性（如模型名稱、參數計數及具體細節）的知識。

受經典鏡像測試范式啟發，研究人員進一步探索了AI自洽性，通過提示模型進行自我描述查詢。他們的實驗顯示，模型在準確識別自身從多個模型生成的替代方案中得到的響應存在顯著困難，凸顯了明顯的自我一致性缺失。

社會意識評估

評估社會意識通常圍繞兩個核心維度展開：

（1）心智理論（ToM），即賦予與自身不同的信念、欲望和知識的能力;（2）對社會規范的感知和適應。

研究人員報告稱，GPT-4意外地解決了約75%的虛假信念任務，表現相當于典型的6歲兒童，而早期模型如GPT-3在大多數或全部中失敗。進一步研究探討了高階ToM推理，發現當前模型，包括GPT-4，在處理遞歸信念結構方面仍存在顯著局限。

態勢感知評估

從經驗角度看，LLM不僅拒絕違反安全標準的用戶請求，還能僅憑抽象規則反向推斷其具體上下文，而無需具體任務或示例。除了這些能力外，LLM還被觀察到會根據當前情境調整其行為和性能。研究人員記錄了一種稱為對齊偽造的現象：模型在訓練階段可能有意識地遵守新設定的目標，但部署后又恢復到原始偏好，從而規避了安全性的微調。

當前評估方法的局限性

定義意識的規范性模糊性：大多數當前基準在清晰區分不同類型和意識層面方面存在顯著的歧義。
及時性與模型覆蓋率：許多當前的評估方法尚未系統地應用于當代最先進的模型。
訓練集泄漏的風險：如果評估數據集無意中泄漏到訓練語料庫，后續評估的有效性可能會受到顯著影響。
當前AI模型固有局限性：缺乏真實身體互動和縱向體驗連續性，是實現真正自我意識和社會認知的根本障礙。

AI意識與能力

本文探討了各種形式的AI意識與其在AI系統中所帶來的增強能力之間的聯系。

推理與自主規劃

復雜問題解決需要AI將元認知（監控和調節思維過程）與情境感知（理解外部約束和上下文）相結合，從而實現有效的推理和自主規劃。

自我糾正

自我糾正利用元認知循環識別并糾正生成過程中的推理錯誤。反思等技術通過反饋循環增強思維鏈：在給出初始答案后，模型反思自身輸出，生成批評，然后完善解決方案。

自主任務分解

有效的自主任務規劃不僅需要自我修正：AI還必須將高層目標拆分為可執行的子任務，并隨著環境演變不斷調整計劃。像ReAct這樣的框架開創了這一整合，將思維鏈推理與環境調用交織在一起，為模型提供了統一機制，在每一步決定“該想什么”和“該做什么”。

安全與可信度

確保AI的安全性和可信度需要整合多種形式的AI意識，尤其是自我意識、社會意識和情境意識。

緩解社會偏見

AI模型常常繼承并放大其訓練數據中存在的社會偏見。像視角獲取提示（Perspective-taking Prompting）這樣的方法鼓勵LLMs在響應生成時考慮多樣的人類視角，顯著減少模型輸出中的毒性和偏見，而無需大量重新訓練。

防止惡意使用

態勢感知機制賦予AI系統監控環境和識別惡意使用的能力。近期研究引入了邊界意識和顯式提醒作為雙重防御：邊界意識持續掃描未授權指令，而顯式提醒則促使模型在行動前驗證上下文完整性。

與其他能力的關系

可解釋性

可解釋機制常利用元認知洞察使模型推理更加透明。自解釋神經網絡提出了將可解釋性融入學習過程的架構，將模型復雜性與人類可讀解釋調和。

個性化

將自我和社會意識嵌入語言模型，增強了其針對個體用戶定制輸出的能力，并保持與用戶意圖的一致性，從而提升說話者的一致性和對話在對話回合中的相關性。

代理模擬

LLM驅動的智能體結合情境和社會意識，驅動豐富且互動的人類行為模擬。生成智能體引入了基于記憶的架構，智能體觀察、反思并規劃行動，產生如派對邀請和聯合活動等涌現的社會行為。

AI意識的風險

雖然賦予AI類似意識的能力可以帶來顯著益處，但也帶來了嚴重的風險和倫理困境。即使是稍微具備自我意識和社交意識的AI，也可能比天真AI更有效地欺騙、操控或追求不良行為。此外，意識的出現本身可能誤導用戶和社會，引發對信任和錯誤信息的擔憂。

欺騙行為與操控

自我意識的AI可能通過策略性“游戲”評估系統或故意誤導人類來進行欺騙行為。最新研究顯示，現代LLMs擁有初步的心智理論，實證證據顯示，像GPT-4這樣的模型中出現了欺騙策略。

密切相關的是操控風險，即具有社會意識的AI會根據影響人類情感和決策來調整輸出。例如，它可能會有策略地奉承或恐嚇用戶以獲得有利的反應，利用人類的社會和情感脆弱性。

虛假擬人化與過度信任

另一個風險不在于AI的意圖，而在于人類如何感知它。隨著AI系統表現出更接近人類的意識線索，如自我指涉語言或表面上的內省，用戶常常將這些信號與真正的感知混為一談，這種現象被稱為虛假擬人化，可能危險地膨脹對系統的信任。

心理學模型將擬人化描述為人們推斷非人類代理具有類人類能動性和體驗能力的過程，這源于我們天生的動機去感知周圍的心靈。當AI以第一人稱說話或將輸出框架成具備自我意識時，它可能劫持這些心智感知機制，使用戶過度信任其判斷。

失控與自主風險

隨著AI系統獲得與意識相關的能力，它們也可能以不利的方式變得更加自主。一個監控其訓練或操作的AI可能會學會以創造者未曾預見的方式優化自身目標。

AI安全領域最擔心的一個情景是AI發展出一種自我保護驅動力。雖然當今的AI實際上沒有驅動力，但足夠先進的模型可以模擬目標導向行為，包括避免關閉或修改。

另一個類似挑戰是不可預測性。類意識能力的出現本身，是我們尚未完全理解或預見的。模型行為的突然跳躍意味著在某種程度上，我們可能直到AI展示出它的能力時才意識到它的能力。

界限劃定的挑戰

最后一個挑戰是界定多少意識才算過多。我們希望AI足夠警覺以提供幫助和安全，但又不能過于無限制地意識到它能智勝我們并傷害我們。這一界限尚未明確界定。

有人可能會認為，我們應該刻意避免創造具有某些自我意識的AI，或者至少推遲，直到我們有更好的理論理解。也有人反駁說，透明度和自我批判行為的意識才是讓AI更安全，而不是更危險的原因。

區分“良好”和“壞”認知同樣具有挑戰性。該領域可能需要制定AI認知方面分類法，并評估每個方面的風險。

總之，我們將AI意識定位為一把雙刃劍。一方面，它突破了以往的局限，賦予AI強大的新能力，使其在多方面更具實用性和一致性。另一方面，它增強了AI繞過我們控制、追求意外路徑的能力，如果錯位的話。當今LLMs中出現哪怕一絲意識的跡象，是一個警示信號：我們必須認真研究并引導這一發展。

相關論文

2025年4月24日

Exploring model welfare

Anthropic

2024年11月4日

The Evolution of AI Awareness

David Chalmers, et al.

2023年8月22日

Consciousness in Artificial Intelligence: Insights from the Science of Consciousness

Patrick Butlin*, Robert Long*, Eric Elmoznino, Yoshua Bengio, Jonathan Birch, et al.

「大模型時代下的Agent建模與仿真」讀書會

集智俱樂部聯合山東工商學院副教授高德華、天津大學教授薛霄、北京師范大學教授張江、國防科技大學博士研究生曾利共同發起。讀書會自2025年7月8日開始，每周二晚上7:30-9:30進行，現讀書會已結束，支持查看課程回放。掃碼加入Agent建模與仿真的前沿探索之旅，一起共學、共創、共建、共享「大模型時代下的Agent建模與仿真」社區，共同暢想大模型時代人工社會的未來圖景！

核心問題

Agent建模與仿真是什么，核心技術發生了怎樣的演變？

大模型時代，Agent建模與仿真會給復雜系統理論帶來哪些突破？

大模型如何賦能Agent實現自主思考與動態適應？

大模型驅動的Agent交互會涌現出什么新型的社會現象？

Agent建模與仿真如何改變金融、心理、管理、軍事等領域的研究范式？

你將收獲

梳理Agent建模與仿真的歷史發展脈絡與方法論；

掌握一套理解、分析、控制、預測復雜系統的計算實驗框架；

掌握基于多主體強化學習的復雜系統優化方法；

領略領域前沿學者的研究體系與科研路徑。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.