![]()
復(fù)旦大學(xué)、哈佛大學(xué)和石溪大學(xué)的研究團(tuán)隊(duì),用AI和統(tǒng)計(jì)方法扒了22種語(yǔ)言幾百年的詞匯數(shù)據(jù),發(fā)現(xiàn)了一個(gè)能跨語(yǔ)言通用的數(shù)學(xué)規(guī)律——這事兒還登上了《英國(guó)皇家學(xué)會(huì)學(xué)報(bào)B輯》,給語(yǔ)言演化研究打開(kāi)了新大門。
研究用的核心工具叫“詞嵌入”,簡(jiǎn)單說(shuō)就是把每個(gè)詞變成300維空間里的一個(gè)坐標(biāo)點(diǎn)。意思相近的詞,比如“開(kāi)心”和“快樂(lè)”,就在空間里挨得近;意思差得遠(yuǎn)的,比如“貓”和“火箭”,就離得十萬(wàn)八千里。
這樣一來(lái),語(yǔ)言就從看不見(jiàn)摸不著的東西,變成了能被數(shù)學(xué)精確測(cè)量的對(duì)象。
![]()
更有意思的還在后面。研究發(fā)現(xiàn),新詞從來(lái)不是孤零零出現(xiàn)的,它們總是成群結(jié)隊(duì)地冒出來(lái),在語(yǔ)義空間里形成新的聚集區(qū)。
真正讓研究團(tuán)隊(duì)興奮的,是他們搞出來(lái)的那個(gè)數(shù)學(xué)模型。以前大家都知道齊普夫定律——極少數(shù)詞用得極頻繁,大多數(shù)詞很少用,但這只是單維度的統(tǒng)計(jì)。
這次研究把“累積優(yōu)勢(shì)”(就是馬太效應(yīng),越流行的詞越被人用)和“馮·米塞斯-費(fèi)舍爾分布”結(jié)合起來(lái),居然能在300維空間和時(shí)間維度上,完美重現(xiàn)前面發(fā)現(xiàn)的所有規(guī)律!
更意外的是,生態(tài)學(xué)里的泰勒定律(描述生物種群密度的均值和方差關(guān)系),居然在詞匯的語(yǔ)義分布里也成立!這是泰勒定律第一次在語(yǔ)言學(xué)里被驗(yàn)證,也說(shuō)明語(yǔ)言演化和其他復(fù)雜系統(tǒng)(比如生態(tài)、城市)之間,可能藏著深層的共性。
這項(xiàng)研究的意義可不止語(yǔ)言學(xué)。想想看,音樂(lè)風(fēng)格的變化、科學(xué)概念的傳播,會(huì)不會(huì)也遵循這套數(shù)學(xué)邏輯?
你平時(shí)有沒(méi)有注意到,最近哪些詞是扎堆出現(xiàn)的?比如前幾年的“內(nèi)卷”“躺平”,或者現(xiàn)在的“AI生成”“大模型”?
這些新詞是不是也像研究里說(shuō)的那樣,組團(tuán)占領(lǐng)了我們的語(yǔ)義空間?評(píng)論區(qū)聊聊你的發(fā)現(xiàn),看看大家能不能找到更多語(yǔ)言演化的小線索!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.