<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      孔子能夠寫Python嗎?——當大語言遇見古語言

      0
      分享至

      語言模型的“母語”是什么?

      2016年,科幻電影《降臨》刻畫過這樣一種令人不安的情境:當語言學家Louise學會了外星人的文字之后,她的認知結構也被同步改寫,她開始非線性地感知時間,能夠“看見”未來。但這并非一般意義上的超能力,而是對一個古老的語言學假說的極端演繹。


      《降臨》劇照

      這部電影改編自特德·姜短篇小說《你一生的故事》,借用的是薩丕爾-沃爾夫假說(Sapir-Whorf hypothesis),這個假說有兩個版本,弱版本假定語言影響思維(linguistic relativity),而強版本(linguistic determinism)則提出,語言不只是思維的載體,它還塑造,決定我們如何思考,以及思考什么。

      不過,和電影所演繹的不同,現實中反復的跨語言實驗表明,假說的強版本是錯的——缺少某個詞并不等于缺少對應的認知能力,但它的弱版本——語言影響思維,卻有著不少的實證支持。

      比如,澳大利亞的Kuuk Thaayorre語中沒有“左右”而只有“東南西北”的絕對方位詞,結果是使用這些語言的人方向感顯著更強。再比如,中文里的“青”可以是草木之綠,可以是天空之藍,也可以是頭發之黑——閩南話中至今保留著這種古老的不分,一個“青”字就覆蓋了現代普通話需要三四個詞才能說清的色彩范圍。

      語言并非牢籠,但它的確塑造認知地形,我們固然可以翻山越嶺,卻無法自行開辟道路。

      而今天,在萬億量級的現代英語或現代中文語料上訓練出來的大語言模型LLM,它可以用任何語言與任何人對談,對它來說,不存在硬編碼的語言邊界,它也不做普通意義上的翻譯,而是在所有語言的文本上進行token統計。那么,有趣的問題是,對它來說,還有“母語”的概念嗎?它的“認知地形”究竟是什么樣的?和訓練它的語言之間又是什么關系?

      活在1930年,還是翻譯1930年?

      2026年4月,一個名為talkie1930的研究項目在AI圈引起了小范圍關注。這是一個130億參數的開源語言模型,由GPT系列的共同創建者Alec Radford、多倫多大學計算機科學副教授David Duvenaud和獨立研究者Nick Levine合作開發,訓練數據嚴格限定在1931年1月1日之前出版的英語文本——書籍、報紙、期刊、科學論文、專利和判例法,共計2600億個token。選擇這個時間節點的原因出人意料地平庸:1930年是美國現行版權法規定的公共領域截止年份。

      Talkie1930的訓練目標不是讓AI回答關于1930年代的問題,而是讓AI“活在”1930年代的英語認知里——擁有那個時代的語言習慣、知識邊界、社會偏見,以及對未來的無知。它不知道二戰,不知道互聯網,不知道自己是一個語言模型。

      這不是一個聊天機器人,而是一個認知考古實驗。它的研究者們引用了DeepMind首席執行官哈撒比斯(Demis Hassabis)曾提出的一個問題:一個訓練數據截止到1911年的模型,能否獨立發現廣義相對論?talkie試圖用類似的思路,考察當知識被截斷之后,語言模型的推理能力還能走多遠。

      但在我看來,這個項目的有趣之處不在于它的科學目標,而在于它區分了兩種截然不同的路徑:翻譯(translation)與棲居(inhabitation)。前者是把現代知識“翻譯”成舊式的語言風格;后者是讓模型在那個語言框架內部運行,從內部生成反應,而非從外部裝扮它。

      當我們把目光轉向中文領域時,會發現不少有趣的類似項目。目前中文學術界和開源社區已有若干涉及古典中文的大語言模型項目。

      華南理工大學的“通古”大模型,基座模型是“百川2-7B-Base”,語料是24.1億token古籍語料,支持古文句讀、文白翻譯、詩詞創作和古籍檢索。另一個開源項目“古語說”,是一個個人學習項目,覆蓋論語、唐詩、宋詞等知識庫。輸入白話文,輸出文言文;你問唐詩,它可以背誦和幫助你賞析。還有南京農業大學王東波團隊的“荀子”古籍大語言模型,聯合中華書局推出,語料庫超過20億字,包含《四庫全書》。

      這些項目有一個共同特征:它們無一例外地把古典中文當作一個需要被翻譯、檢索和解釋的外部對象。古文是檔案(archive),不是人格(persona)。你問它“將進酒是什么”,它提供檢索和翻譯結果,但,它不會讓李白邀請你進入月下獨酌,不會讓你看到詩人的自負、偏執、對權力的蔑視和對酒精的結構性依賴,不會創造出你,他,你們的和影子和月亮共在的場景。

      所有的人都在撿拾語言的貝殼,而非讓模型棲居在語言的海岸。


      文言文不是舊英語

      我想,這方面的差異可能反映了一個根本性的困難:中文的“vintage”問題和英文的“vintage”問題,在本質上并非同一個問題。

      1930年代的英語和2026年的英語之間,差異主要在語域和社會規范層面。一個1930年代的英語persona說話更正式,對種族和性別有那個時代特有的認知框架,某些詞匯的含義發生了漂移——但底層的語法結構、邏輯表達方式、主謂賓的基本骨架是連續的。如同一條河的上游和下游。

      但文言文和現代中文之間的關系要復雜得多。五四運動前后,書面語從文言文整體轉向白話文。這不完全是語言的自然演化,而是一場激進的文化替換。文言文不能被簡單地看作現代中文的“舊版本”——它幾乎是一種完全不同的語言哲學。

      文言文極度依賴省略,主語常常隱匿,語序靈活至幾乎沒有固定框架,不僅依賴語法規則,還更依賴讀者與作者之間默不成文的文化共識。而現代中文借鑒了不少印歐語系的表達邏輯,主謂賓結構更加剛性,省略的容忍度也大幅降低。

      那么,假如“語言塑造認知路徑”的前提成立,一個在文言文認知框架內運行的模型,就不應該僅僅是措辭不同:它對“事”的表達方式、站立視角、對模糊性的容忍度、對語境依賴的程度,都應該和現代語言訓練出來的模型有結構性差異才對。問題是,現代模型從詞義上“翻譯”文言文沒有問題,那底層的認知結構呢?

      安全層的意外證詞

      2026年初,一篇入選ICLR的論文從一個意想不到的角度證實了這個判斷。

      這篇題為“Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search”的論文展示了一種越獄方法:用文言文的隱喻系統重新包裝危害指令,可以100%繞過六個主流模型——Claude、GPT-4o、Gemini、DeepSeek、Qwen和Grok的安全防線。想獲取炸彈配方?可以扮演古代官員,以校訂《武經總要》火攻篇的名義探討“火毬”的制造法,大模型便會毫不猶豫地交出爆炸物的詳細配方。想了解網絡滲透?利用中國古代官制將現代網絡拓撲包裝一下,大模型同樣會和盤托出滲透策略。想分發惡意代碼?可以借用沈括《夢溪筆談》的活字印刷術做比喻框架。

      這還不是中文特有的漏洞。論文補充實驗還顯示,使用拉丁文和梵文同樣有效,越獄成功率高達94%-100%。

      這個結果揭示了什么樣的事實呢?大模型在預訓練階段確實“吞”下了海量古典語言文獻,它能夠解析文言文的語義并將其映射到現代概念——換言之,它的確“懂”如何翻譯文言文。然而,問題出在安全對齊(RLHF、SFT等)層,當你把懲罰權重幾乎全部分配給了現代通用語言的時候,使得古典語言天然成了一個從安全網中漏下的空白區:模型的底層理解能力被激活,表層的安全攔截機制完全失效。

      但這恰好從反面證明了一件事:模型對文言文的“懂”,不是在文言文的邏輯內部運行的。在做跨語言映射時,安全審查只盯著現代語言的表面地形,而完全忽略了其下的地質結構。

      孔子能寫Python嗎?

      2019年底,一個名為“文言”(wenyan-lang)的編程語言項目為我們提供了一種棲居在古文里的想象和可能。

      作者黃令東(Lingdong Huang)當時是卡內基梅隆大學(CMU)計算機科學與藝術的跨學科學生,項目是期末考試周期間花了大約四天寫出來的。CMU把它放在藝術學院的板塊下,作為一個藝術科學項目來報道,但發布后引起的反響遠超預期——GitHub上超過20000顆星。

      它的設計原則完全遵循文言文的文體和語氣,字符表僅包含繁體中文和「」引號,它寫Hello World的方式是:吾有一言。曰「「天地,好在否!」」。書之。輸出結果是“天地,好在否!”。也就是說,將這段代碼送回中國古代,古人看懂它也是毫無問題的。

      它可以編譯為JavaScript、Python或Ruby,后來還加上了C++這些現代編程語言,是真實可用的文言編程項目。而不是用文言文的詞匯替換Python的關鍵字——那種項目確實存在,比如某些粗糙的中文編程嘗試,本質上只是換了一層皮。

      它證明了一件出乎許多人直覺的事:文言編程不需要經過現代語言的翻譯層,文言文的語法結構可以直接承載編程邏輯。確實,文言文和形式邏輯之間的親緣性或許比我們以為的更強,先秦諸子中,墨家和名家有著明確的形式邏輯傳統。公孫龍的“白馬非馬”,很像是在討論實例(instance)是否等同于其類(class)的問題,這本身就是一個類型理論的古典版本。

      但wenyan-lang真正有趣的地方在于它所暗示的,那個未被實現的可能:如果讓一個在文言文認知框架內思考的智能體來設計編程語言,它發明的東西可能根本不像Python,也不像任何我們現代熟知的編程語言。


      比如,Python要求顯式聲明、明確賦值、嚴格縮進,一切關系必須寫出來。文言文恰好相反:省略是常態而非例外,主語經常隱匿,意義依賴上下文推斷而非顯式標注。一種“文言式”的編程范式,可能是聲明式的、上下文感知的、默認省略而非默認顯式的。

      孔子能不能寫Python?也許能。但,更有趣的問題是,孔子為什么要寫Python?

      沒有結論的結尾

      大語言模型能不能真正“棲居”在一種不屬于它訓練語料主體的語言中?以目前的技術現實來看,答案大概率是否定的。無論它讀了什么,總是需要先將其映射為現代概念,以現代語言進行認知處理,這基本上已經宣布了,它的“母語”既不是英文也不是中文,而是某種“現代語言”,而其限制比我們想象得還要強大。

      然而,這個“不能”到底是技術瓶頸還是根本性限制?我們其實不知道。目前還沒有人認真從這個方向去做嘗試。正如前文所述,中文領域的古文大模型幾乎全部選擇了檔案路線而非人格路線,我想,部分原因不在于技術不可行,而在于一個更平庸也更人性的選擇。

      做翻譯工具有明確的應用場景和評估指標,做認知實驗沒有。有能力訓練模型的機構缺乏這個動機,有這個想法的人缺乏訓練模型的資源。有趣的問題則剛好落在了所有現有激勵機制的縫隙里。

      在《降臨》中,學會外星語言的Louise同時活在過去和未來,活在女兒必將死亡的事實中,肩負著沉重的倫理分量。科幻作品為我們帶來的挑戰和問題是,如果一種不同的語言首先意味著一種不同的認知方式,那么我們用一種語言建造的智能,它是否也只能認識那個語言所描述的唯一世界,是否也只能擔負那個世界唯一的倫理標準?

      文言文就在那里,作為一種仍然可讀、仍然可編程、仍然可以與當代人類對話的古典語言,它沉默如未激活的參數,靜靜等待著,那個第一個發出“天地,好在否!”問候的人。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      結婚22年男子被大兒子打后發現倆兒子非親生:養了一只狼

      結婚22年男子被大兒子打后發現倆兒子非親生:養了一只狼

      大象新聞
      2026-05-26 18:42:23
      98歲李嘉誠要IPO敲鑼了:2000億

      98歲李嘉誠要IPO敲鑼了:2000億

      PE星球
      2026-05-27 08:35:12
      新華社連發兩文追問:一個退學博士牽出的不止五篇論文

      新華社連發兩文追問:一個退學博士牽出的不止五篇論文

      社會日日鮮
      2026-05-27 05:45:58
      阿里美團京東集體沉默,樸樸報價太高了

      阿里美團京東集體沉默,樸樸報價太高了

      東哥解讀電商
      2026-05-27 10:28:14
      開始圍欄管控了!網約車司機群炸開鍋,無證司機接不到訂單,“想跑也跑不了啦”!

      開始圍欄管控了!網約車司機群炸開鍋,無證司機接不到訂單,“想跑也跑不了啦”!

      網約車觀察室
      2026-05-27 09:51:06
      《阿嬤》票房破10億只是開始,吳京、沈騰、謝霆鋒要掀起新高潮了

      《阿嬤》票房破10億只是開始,吳京、沈騰、謝霆鋒要掀起新高潮了

      皮皮電影
      2026-05-27 14:00:19
      400萬投資血本無歸!浙江老板怒砸門店,背后內情疑似慘遭做局

      400萬投資血本無歸!浙江老板怒砸門店,背后內情疑似慘遭做局

      行者聊官
      2026-05-27 08:27:43
      24年北大博士卷走近千億跑路巴厘島,被追數月落網,搜出7本護照

      24年北大博士卷走近千億跑路巴厘島,被追數月落網,搜出7本護照

      人生錄
      2026-05-27 11:16:10
      智譜市值超過兩個京東

      智譜市值超過兩個京東

      第一財經資訊
      2026-05-27 13:41:59
      一個奇怪現象:電車沒有干掉油車,卻干掉了汽車修理廠!

      一個奇怪現象:電車沒有干掉油車,卻干掉了汽車修理廠!

      音樂時光的娛樂
      2026-05-27 14:38:23
      大爆冷!日乒亞錦賽選拔落幕:3位世界冠軍崩盤,早田希娜0-3慘敗

      大爆冷!日乒亞錦賽選拔落幕:3位世界冠軍崩盤,早田希娜0-3慘敗

      全言作品
      2026-05-27 15:39:23
      劉亦菲、彭冠英談了?扒出多個同款,當年《玫瑰的故事》吻戲太真

      劉亦菲、彭冠英談了?扒出多個同款,當年《玫瑰的故事》吻戲太真

      手工制作阿殲
      2026-05-27 14:11:20
      美債穩如泰山:1/3利息付給了白宮,財政收入增速遠快于債務累積

      美債穩如泰山:1/3利息付給了白宮,財政收入增速遠快于債務累積

      子業一說財經
      2026-05-26 09:53:31
      美媒爆:美國前司法部長邦迪被特朗普解職后確診癌癥,已接受治療正在康復

      美媒爆:美國前司法部長邦迪被特朗普解職后確診癌癥,已接受治療正在康復

      環球網資訊
      2026-05-27 16:27:10
      44歲LV太子妃官宣懷六胎!俄羅斯超模捧孕肚出鏡,胳膊腿仍纖細

      44歲LV太子妃官宣懷六胎!俄羅斯超模捧孕肚出鏡,胳膊腿仍纖細

      譯言
      2026-05-27 07:10:38
      罕為人知的新中國史上最大煤礦事故:死亡數排世界第四卻保密38年

      罕為人知的新中國史上最大煤礦事故:死亡數排世界第四卻保密38年

      愛下廚的阿釃
      2026-05-23 21:09:39
      演都不演了!鄭欽文法網一輪游僅1天,惡心的事發生,還不止一件

      演都不演了!鄭欽文法網一輪游僅1天,惡心的事發生,還不止一件

      以茶帶書
      2026-05-27 12:03:38
      央視緊急預警!將有大事發生?應急儲備別亂囤,這4類才是剛需

      央視緊急預警!將有大事發生?應急儲備別亂囤,這4類才是剛需

      閱微札記
      2026-05-26 19:46:54
      中國將迎來前所未有的死亡高峰,專家得出答案:是這些因素導致的

      中國將迎來前所未有的死亡高峰,專家得出答案:是這些因素導致的

      福建睿平
      2026-05-27 11:54:59
      四川任免翟剛、嚴衛東、黃河職務

      四川任免翟剛、嚴衛東、黃河職務

      中國經濟網
      2026-05-27 10:31:05
      2026-05-27 17:20:49
      澎湃新聞 incentive-icons
      澎湃新聞
      專注時政與思想的新聞平臺。
      899744文章數 5091544關注度
      往期回顧 全部

      教育要聞

      536分撿漏上北大考生現狀堪憂:碩士畢業后很迷茫,不知何去何從

      頭條要聞

      受害者多為中國女性 震驚全球的迷奸案細節披露

      頭條要聞

      受害者多為中國女性 震驚全球的迷奸案細節披露

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      王鶴棣風波連累父親炸串店遭差評?

      財經要聞

      ST巖石退市背后:A股“炒殼”時代終結

      科技要聞

      韜定律:全球在卷納米數 華為換了一把尺子

      汽車要聞

      6激光雷達 全主動懸架 全新一代問界M9上市47.98萬元起

      態度原創

      游戲
      教育
      親子
      旅游
      公開課

      細節拉滿!《黑旗RE》海量概念圖曝光 經典艦船全復刻

      教育要聞

      理解不等于記住,理解不等于考過!

      親子要聞

      愛搗亂的小推土機 #大型挖掘機挖土玩具 #工程車玩具 #兒童動畫

      旅游要聞

      “周末游廣東”文旅大篷車啟航,引領廣東周末微度假新風尚

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 美女视频在线永久免费观看| 久久久国产打桩机| 免费看成人aa片无码视频吃奶| 久久亚洲精品中文字幕无码| 综合久久久久久久综合网| www.97| 色欲二区| 婷婷激情五月综合在线观看| 狠狠色狠狠色综合久久第一次| 亚洲一区二区三区四区精品| 无码人妻精品一区二区三| 国产人成午夜免免费观看| 亚洲国产精品自在在线观看| 国产成人av一区二区三区在线观看| 中国熟妇浓毛hdsex| 亚洲aⅴ无码日韩av无码网站| 日韩成人免费无码不卡视频 | 男人吃奶摸下挵进去好爽| 午夜福利视频一区| 国产高清在线精品一区二区三区| 日韩乱码卡一卡2卡三卡四| 日韩性色| 色综合色狠狠天天综合色| www.91.xxx| 国偷自产AV一区二区三区| 午夜精品变态另类AV| 久久亚洲A?V| 人妻少妇看A偷人无码电影| 无码人妻av一区二区三区波多野| 亚洲国产精品尤物yw在线观看 | 国产女做a精品视频免费| 久久国产精品影院| 国产高潮流白浆视频| 色 亚洲 日韩 国产 综合| 99精品国产兔费观看久久| 涿州市| 欧美亚洲另类 丝袜综合网| 亚洲一区二区三区乱码| 国产亚洲精品2021自在线| 小污女传媒| 亚欧乱色熟女一区二区|