![]()
Brian Nosek 是開(kāi)放科學(xué)中心的執(zhí)行主任。在 2010 年代,Nosek 博士及其同事重復(fù)了 100 篇心理學(xué)論文,但只有 39% 的時(shí)間結(jié)果與原始結(jié)果相符。
卡爾·齊默
自 2011 年以來(lái),卡爾·齊默一直在報(bào)道科學(xué)領(lǐng)域的可重復(fù)性問(wèn)題。
2026年4月1日
開(kāi)展研究很難,驗(yàn)證研究結(jié)果也很難。一項(xiàng)新的重要研究發(fā)現(xiàn),人工智能目前還無(wú)法提供幫助。
科學(xué)家每年發(fā)表超過(guò)一千萬(wàn)篇研究論文和其他出版物。其中一些發(fā)現(xiàn)將豐富人類的知識(shí)寶庫(kù),但有些則是錯(cuò)誤的。
為了評(píng)估一項(xiàng)研究,科學(xué)家可以重復(fù)該研究,以檢驗(yàn)是否能得到相同的結(jié)果。但七年前,一個(gè)由數(shù)百名科學(xué)家組成的團(tuán)隊(duì)著手尋找一種更快捷的方法來(lái)評(píng)判新的科學(xué)文獻(xiàn)。他們構(gòu)建了人工智能系統(tǒng),用于預(yù)測(cè)研究是否經(jīng)得起推敲。
該項(xiàng)目由美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)資助,名為“系統(tǒng)化開(kāi)放研究和證據(jù)的信心”(簡(jiǎn)稱SCORE)。其構(gòu)想源于當(dāng)時(shí)DARPA的項(xiàng)目經(jīng)理亞當(dāng)·羅素。他設(shè)想為科學(xué)建立一種類似信用評(píng)分的體系。
“人們可能會(huì)說(shuō),‘嘿,這很可能是可靠的,我們可以以此為基礎(chǔ)制定政策,’”目前在南加州大學(xué)任教的拉塞爾博士說(shuō)。“‘但是這個(gè)呢?嗯,這或許能寫(xiě)成一本在機(jī)場(chǎng)里賣(mài)的書(shū)。’”
SCORE團(tuán)隊(duì)審查了數(shù)百項(xiàng)研究,并對(duì)其中許多研究進(jìn)行了重復(fù)測(cè)試,以更好地了解哪些因素能夠使研究結(jié)果經(jīng)得起時(shí)間的考驗(yàn)。現(xiàn)在,他們正在發(fā)表一系列關(guān)于這些研究成果的論文。
研究人員表示,目前科學(xué)的信用評(píng)分仍然只是一個(gè)夢(mèng)想。人工智能還無(wú)法做出可靠的預(yù)測(cè)。
“我們還沒(méi)達(dá)到目標(biāo),”開(kāi)放科學(xué)中心執(zhí)行主任兼該項(xiàng)目負(fù)責(zé)人布萊恩·諾塞克說(shuō)。“它確實(shí)接收到了一些信號(hào),但要獨(dú)立使用,精度還需要大幅提高。”
但外部專家表示,在此過(guò)程中,SCORE 團(tuán)隊(duì)對(duì)科學(xué)過(guò)程進(jìn)行了非常深入的研究,發(fā)現(xiàn)了有助于改進(jìn)該過(guò)程的線索。
“我認(rèn)為以前從未有過(guò)如此大規(guī)模的嘗試,”牛津大學(xué)心理學(xué)家多蘿西·畢曉普說(shuō)道,她并未參與這項(xiàng)研究。
自己看看吧
重復(fù)性研究一直是科學(xué)發(fā)展的重要支柱。1953年,加州理工學(xué)院的地球化學(xué)家克萊爾·帕特森利用一種新技術(shù)測(cè)定出地球的年齡為45億年,比之前的估計(jì)值大了12億年,這一結(jié)果令科學(xué)家們震驚不已。
“我遇到了一些世界上最優(yōu)秀、最有能力的評(píng)論家,他們竭盡全力想推翻我的數(shù)據(jù),”帕特森博士后來(lái)回憶道。“他們絞盡腦汁,試圖證明我錯(cuò)了。”然而,無(wú)論他們?nèi)绾闻Γ臄?shù)據(jù)始終沒(méi)有改變。
但有時(shí)重復(fù)實(shí)驗(yàn)的結(jié)果并不一致。1976年,考古學(xué)家在智利蒙特維德發(fā)現(xiàn)了一處古代狩獵營(yíng)地,并確定其距今約14500年,比此前在美洲發(fā)現(xiàn)的人類活動(dòng)證據(jù)要古老得多。
時(shí)隔近50年,一個(gè)獨(dú)立的科學(xué)家團(tuán)隊(duì)重復(fù)了這項(xiàng)研究。上個(gè)月,他們得出了截然不同的結(jié)論:蒙特維德地區(qū)在4200至8200年前就有人居住。
原研究的作者對(duì)這一新發(fā)現(xiàn)提出異議;可能需要更多研究來(lái)解決這一沖突。科學(xué)就是這樣自我修正的。
至少,理論上應(yīng)該是這樣。但重復(fù)先前的研究需要耗費(fèi)時(shí)間和金錢(qián),而研究人員可能更愿意將這些資源投入到自己的研究中。而且,期刊編輯通常對(duì)重復(fù)研究不感興趣。
新墨西哥州圣塔菲研究所的人工智能研究員梅蘭妮·米切爾最近復(fù)現(xiàn)了一篇人工智能論文,但未能得到與原論文相同的結(jié)果。一家期刊以缺乏創(chuàng)新性為由拒絕了她的論文。
“我真的很討厭這種文化,”米切爾博士上個(gè)月在耶魯大學(xué)的一次講座上對(duì)聽(tīng)眾說(shuō)。
解決一個(gè)“棘手問(wèn)題”
![]()
![]()
上圖為克萊爾·帕特森,她在 20 世紀(jì) 50 年代計(jì)算出地球的年齡比之前估計(jì)的要大 12 億年;下圖為梅蘭妮·米切爾,她是新墨西哥州圣塔菲研究所的人工智能研究員,攝于 2023 年。
信用...
加州理工學(xué)院;《紐約時(shí)報(bào)》的艾莉婭·馬爾科姆
15 年來(lái),一些科學(xué)家一直試圖改變這種文化。他們首先記錄了問(wèn)題的嚴(yán)重程度。2010 年代初期,諾塞克博士及其同事重復(fù)了 100 篇心理學(xué)論文,結(jié)果只有 39%與原始結(jié)果相符。
在另一個(gè)項(xiàng)目中,諾塞克博士與癌癥生物學(xué)家合作,在動(dòng)物和人類細(xì)胞上重復(fù)了50項(xiàng)實(shí)驗(yàn)。但只有不到一半的結(jié)果經(jīng)受住了他們的審查。
美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)的羅素博士想知道,科學(xué)家能否利用人工智能來(lái)預(yù)測(cè)一項(xiàng)研究的可信度。但首先,科學(xué)家們需要收集更多關(guān)于可重復(fù)性的數(shù)據(jù)。“我知道這是一個(gè)棘手的問(wèn)題,”他說(shuō)。
SCORE 項(xiàng)目始于2019 年,并發(fā)展壯大到包括 865 名研究人員。他們分析了 2009 年至 2018 年間發(fā)表的 3900 篇論文,這些論文涵蓋了犯罪學(xué)、經(jīng)濟(jì)學(xué)、心理學(xué)和社會(huì)學(xué)等社會(huì)科學(xué)領(lǐng)域。
在一項(xiàng)研究中,SCORE團(tuán)隊(duì)重復(fù)了164項(xiàng)研究。團(tuán)隊(duì)成員重新進(jìn)行了部分實(shí)驗(yàn),并招募志愿者再次參加原始測(cè)試。對(duì)于基于政府統(tǒng)計(jì)數(shù)據(jù)的研究,SCORE團(tuán)隊(duì)成員獲取了相關(guān)數(shù)據(jù)并進(jìn)行了分析。
只有大約一半的重復(fù)研究得出了與原始研究相同的結(jié)果。
惠特曼學(xué)院的生物學(xué)家蒂姆·帕克(Tim Parker)并未參與這項(xiàng)研究,他表示,這一低比率與之前規(guī)模較小的研究結(jié)果一致。
“我認(rèn)為這些結(jié)果非常有說(shuō)服力,”他說(shuō)。“我希望那些之前對(duì)實(shí)證研究結(jié)果不以為然的人,能夠被這些結(jié)果說(shuō)服。”
帕克博士和其他研究人員對(duì)科學(xué)家們使用不同方法研究同一數(shù)據(jù)的做法表示擔(dān)憂。他們認(rèn)為,即使這些方法都合理,也可能導(dǎo)致相互矛盾的結(jié)果。
SCORE團(tuán)隊(duì)評(píng)估了科學(xué)家使用不同方法時(shí)研究結(jié)果的可靠性。團(tuán)隊(duì)成員挑選了100篇論文,并為每篇論文分配了至少五個(gè)專家團(tuán)隊(duì)。每個(gè)團(tuán)隊(duì)都運(yùn)用各自的方法分析原始數(shù)據(jù)。
諾塞克博士說(shuō):“很多時(shí)候,這些選擇會(huì)產(chǎn)生重大影響。”在SCORE試驗(yàn)中,只有約57%的情況下,所有五個(gè)團(tuán)隊(duì)都得到了與原始研究大致相同的結(jié)果。他們只有三分之一的時(shí)間得到了完全相同的結(jié)果。
SCORE 團(tuán)隊(duì)還考慮了數(shù)據(jù)問(wèn)題以及用于分析的計(jì)算機(jī)程序中的問(wèn)題如何導(dǎo)致復(fù)制失敗。
研究人員使用與原作者相同的代碼分析了143篇論文中的數(shù)據(jù)。約9%的SCORE結(jié)果與原始結(jié)果完全不同;另有14%的結(jié)果僅大致相同。
圖像
![]()
Andrew Tyner, a principal research scientist at the Center for Open Science. “It’s still not that impressive,” he said of A.I. efforts to replicate results. “But there might be some there there.”
信用...
Cornell Watson for The New York Times
渥太華大學(xué)的經(jīng)濟(jì)學(xué)家阿貝爾·布羅德?tīng)柋硎荆谧约旱目茖W(xué)測(cè)試項(xiàng)目——復(fù)制研究所——中也遇到過(guò)類似的問(wèn)題。這些故障可能是由于科學(xué)家在格式化數(shù)據(jù)或編寫(xiě)程序時(shí)出錯(cuò)造成的。“有時(shí)候,代碼錯(cuò)誤簡(jiǎn)直匪夷所思,”他說(shuō)。
實(shí)際情況可能比SCORE研究表明的還要糟糕,因?yàn)榭茖W(xué)家們常常不愿分享數(shù)據(jù)和代碼。當(dāng)SCORE團(tuán)隊(duì)不得不自行編寫(xiě)代碼來(lái)分析數(shù)據(jù)時(shí),他們成功復(fù)現(xiàn)相同結(jié)果的次數(shù)不到一半。
羅素博士曾希望人工智能系統(tǒng)能夠利用 SCORES 項(xiàng)目的研究結(jié)果進(jìn)行訓(xùn)練,從而學(xué)習(xí)判斷一篇論文能否成功復(fù)現(xiàn)的關(guān)鍵特征。但 SCORE 團(tuán)隊(duì)發(fā)現(xiàn),復(fù)現(xiàn)的奧秘似乎仍然深不可測(cè);人工智能的預(yù)測(cè)并非完全隨機(jī),但也遠(yuǎn)非完美。
“這仍然不算令人印象深刻,”開(kāi)放科學(xué)中心首席研究科學(xué)家、這項(xiàng)新研究的作者之一安德魯·泰納說(shuō)。“但或許其中蘊(yùn)含著一些有價(jià)值的信息。”
但這并不意味著專家可以完全相信自己的直覺(jué)。SCORE項(xiàng)目招募了數(shù)百名專家來(lái)預(yù)測(cè)論文是否能夠成功重復(fù)。在審查了132項(xiàng)重復(fù)實(shí)驗(yàn)后,SCORE團(tuán)隊(duì)發(fā)現(xiàn)專家們的預(yù)測(cè)大約有四分之三的概率是正確的。
對(duì)于諾塞克博士來(lái)說(shuō),SCORE 的主要價(jià)值在于展示了科學(xué)過(guò)程的復(fù)雜性,并突出了改進(jìn)科學(xué)過(guò)程的方法。
例如,科學(xué)家可以提前公布實(shí)驗(yàn)計(jì)劃,這可以防止他們?yōu)榱诉m應(yīng)最終獲得的數(shù)據(jù)而調(diào)整假設(shè)。
布羅德?tīng)柌┦勘硎荆诳梢酝ㄟ^(guò)要求作者分享原始數(shù)據(jù)和代碼來(lái)提供幫助。“人們已經(jīng)清理了他們留下的爛攤子,”他說(shuō)。
美國(guó)國(guó)立衛(wèi)生研究院院長(zhǎng)杰伊·巴塔查里亞博士在一次采訪中表示,該機(jī)構(gòu)正在研究如何改進(jìn)可復(fù)制性。
他說(shuō):“科學(xué)是通過(guò)重復(fù)實(shí)驗(yàn)來(lái)確定真理的。我覺(jué)得現(xiàn)在這種方法不太奏效。”
從今年開(kāi)始,該機(jī)構(gòu)計(jì)劃推出新的數(shù)據(jù)和代碼共享工具。它還將遴選不同領(lǐng)域的關(guān)鍵理念,并頒發(fā)資助金以支持這些理念的復(fù)制。此外,該機(jī)構(gòu)正在籌建一份期刊,巴塔查里亞博士將其描述為“一個(gè)可以發(fā)表你的復(fù)制研究成果并獲得認(rèn)可的平臺(tái)”。
匹茲堡大學(xué)醫(yī)學(xué)院的生物化學(xué)家、美國(guó)國(guó)家普通醫(yī)學(xué)科學(xué)研究所前所長(zhǎng)杰里米·伯格(Jeremy Berg)是巴塔查里亞博士的批評(píng)者,他將巴塔查里亞博士的計(jì)劃描述為“極其天真”。
伯格博士警告說(shuō),像集中式數(shù)據(jù)平臺(tái)和關(guān)鍵理念復(fù)制這樣的項(xiàng)目,只有政府做出昂貴的長(zhǎng)期投入才能奏效。僅僅提供更多發(fā)表復(fù)制研究的機(jī)會(huì),本身并不能使大學(xué)在決定招聘和終身教職時(shí)重視這些研究。
“我認(rèn)為還沒(méi)有人破解了這個(gè)密碼,”他說(shuō)。
諾塞克博士告誡說(shuō),無(wú)論研究人員在工作中投入多少精力,他們有時(shí)仍然會(huì)犯錯(cuò)。
“探索知識(shí)前沿總是充滿挑戰(zhàn),無(wú)論你研究的是什么問(wèn)題都一樣,”諾塞克博士說(shuō)。“你會(huì)經(jīng)歷很多次失敗,也會(huì)遇到很多不合邏輯的事情。”
Can Science Predict When a Study Won’t Hold Up?
Conducting research is hard; confirming the results is, too. And artificial intelligence isn’t yet ready to help, a major new study finds.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.