近日,知網(wǎng)向人工智能搜索服務商秘塔發(fā)送侵權(quán)通知,要求其立即斷開知網(wǎng)內(nèi)容搜索結(jié)果鏈接。無獨有偶,一個月前擁有《紐約客》、《時尚》、和《連線》的美國雜志巨頭康泰納仕集團也曾向人工智能搜索引擎Perplexity發(fā)出過類似侵權(quán)通知。作為秘塔和Perplexity的用戶,今天就來分析下知網(wǎng)有權(quán)要求秘塔斷開鏈接嗎?
![]()
一、知網(wǎng)的robots文件并未屏蔽秘塔
搜索引擎是否有權(quán)對互聯(lián)網(wǎng)站內(nèi)容進行抓取,是由網(wǎng)站robots文件的設(shè)置決定的,如果網(wǎng)站的robots文件不允許抓取,則搜索引擎強行抓取可能有不正當競爭風險,有意思的是,雖然知網(wǎng)給秘塔發(fā)函要求斷開鏈接,也就是不允許其抓取網(wǎng)頁內(nèi)容,但其網(wǎng)站的主站robots文件[i]網(wǎng)頁卻顯示:很抱歉!您瀏覽的頁面不存在,可能已被刪除或轉(zhuǎn)移。也就是說,知網(wǎng)主站并沒有禁止任何搜索引擎爬蟲。
當然,現(xiàn)在很多的人工智能搜索引擎的爬蟲確實也不講武德,其不像傳統(tǒng)的百度、谷歌、搜狗、必應那樣把自家的爬蟲進行命名,而是默不作聲的匿名爬取,比如前文提到的Perplexity公司CEO接受采訪時公然表示,哪怕你禁止我的爬蟲,我也不保證不抓取你的網(wǎng)頁,因為我的工具包括匿名的第三方爬蟲[ii]。但至少從技術(shù)上,知網(wǎng)沒有屏蔽秘塔的爬蟲。
二、屏蔽特定爬蟲要有正當理由
可能有讀者會問,我的地盤我做主,網(wǎng)站所有人要屏蔽別人為什么還要有正當理由?這里涉及兩方面的問題,一個是《反壟斷法》,另一個是行業(yè)協(xié)會的規(guī)定。
1、知網(wǎng)有市場支配地位
2022年國家市場監(jiān)管總局曾認定知網(wǎng)在中國境內(nèi)中文學術(shù)文獻網(wǎng)絡數(shù)據(jù)庫服務市場具有支配地位,并因其其他的壟斷行為,對其處以8760萬元罰款。我國《反壟斷法》第二十二條規(guī)定:禁止具有市場支配地位的經(jīng)營者從事下列濫用市場支配地位的行為:沒有正當理由,拒絕與交易相對人進行交易。所以,有市場支配地位的知網(wǎng),要求秘塔搜索斷開鏈接需要有正當理由的,否則就涉嫌拒絕交易的違法壟斷。
2、行業(yè)公約規(guī)定限制搜索引擎抓取應有合理理由
多年前,中國互聯(lián)網(wǎng)協(xié)會制定了《互聯(lián)網(wǎng)搜索引擎服務自律公約》對搜索引擎爬取網(wǎng)站信息是否正當進行了規(guī)定。根據(jù)該公約第八條:互聯(lián)網(wǎng)站所有者設(shè)置機器人協(xié)議應遵循公平、開放和促進信息自由流動的原則,限制搜索引擎抓取應有行業(yè)公認合理的正當理由,不利用機器人協(xié)議進行不正當競爭行為,積極營造鼓勵創(chuàng)新、公平公正的良性競爭環(huán)境。這個自律公約可以看做行業(yè)對于網(wǎng)站屏蔽搜索引擎標準的共識,知網(wǎng)的限制行為需要符合這個共識。
3、法院認為無正當理由屏蔽搜索引擎涉嫌不正當競爭
在后來的百度訴奇虎360搜索引擎違法抓取案中,法院也認可了該公約內(nèi)容的合理性。北京高院法院認定百度在缺乏合理、正當理由的情況下,以對網(wǎng)絡搜索引擎經(jīng)營主體區(qū)別對待的方式,限制360搜索引擎抓取其相關(guān)網(wǎng)站網(wǎng)頁內(nèi)容,影響該通用搜索引擎的正常運行,損害了奇虎公司的合法權(quán)益和相關(guān)消費者的利益,妨礙了正常的互聯(lián)網(wǎng)競爭秩序,違反公平競爭原則,且違反誠實信用原則和公認的商業(yè)道德而具有不正當性,不制止不足以維護公平競爭的秩序,故構(gòu)成反不正當競爭法第二條規(guī)定所指的不正當競爭行為。所以根據(jù)行業(yè)公約,知網(wǎng)也需要找到要求秘塔斷開鏈接的正當理由。
三、人工智能涉及的知識產(chǎn)權(quán)問題可以作為正當理由嗎?
所以知網(wǎng)有沒有權(quán)利要求秘塔斷開鏈接,核心問題是其訴求有沒有法律上的正當性。人工智能是新生事物,對版權(quán)內(nèi)容的使用存在一定的合規(guī)瑕疵,如果知網(wǎng)以此為由要求斷開鏈接的,會有一定合理性。雖然據(jù)秘塔的通告稱,知網(wǎng)向其發(fā)送的侵權(quán)通知長達28頁,但除了本文前面的截圖外,其他內(nèi)容并未披露,所以,筆者只能根據(jù)自己使用秘塔的體驗,以及行業(yè)的情況進行分析。
1、知網(wǎng)無權(quán)主張秘塔訓練版權(quán)侵權(quán)
如果秘塔使用了知網(wǎng)上的論文進行了人工智能訓練,知網(wǎng)不一定有權(quán)主張版權(quán)侵權(quán)。因為論文的作者投稿某雜志,雜志刊登后,文章的版權(quán)可能是作者的,也可能是作者授權(quán)給了雜志,知網(wǎng)站內(nèi)的多數(shù)論文雖然被收錄,但知網(wǎng)擁有這是雜志社或作者授權(quán)的信息網(wǎng)絡傳播權(quán),如果該論文被用于訓練,訓練涉及的版權(quán)是著作權(quán)法規(guī)定的復制權(quán)和著作權(quán)其他權(quán)利,并不侵犯知網(wǎng)的信息網(wǎng)絡傳播權(quán)。當然如果是雜志社維權(quán)秘塔訓練侵權(quán)的,那么秘塔將面臨《紐約時報》起訴OpenAI一模一樣的問題。
如果知網(wǎng)可以證明秘塔的系統(tǒng)抓取其網(wǎng)站大量論文并進行批量訓練的,則可以主張訓練行為涉嫌侵權(quán)其整體數(shù)據(jù)權(quán)利,構(gòu)成不正當競爭,法律依據(jù)是《反不正當競爭法》第二條原則性條款,經(jīng)營者在生產(chǎn)經(jīng)營活動中,應當遵循自愿、平等、公平、誠信的原則,遵守法律和商業(yè)道德。
2、秘塔索引庫如包含知網(wǎng)內(nèi)容,可能侵權(quán)
根據(jù)網(wǎng)上公開的報道[iii],秘塔AI搜索的播客和文庫板塊是有索引庫的,筆者理解的索引庫可能是秘塔把批量收集的文獻事先直接在內(nèi)部做了一個索引數(shù)據(jù)庫,當用戶搜索時,秘塔會搜索網(wǎng)絡對應的實時內(nèi)容,然后利用人工智能把實時搜索結(jié)果和索引庫的內(nèi)容整合在一起提供答案。
根據(jù)筆者的個人體驗,索引庫很可能是真實存在的,因為秘塔的搜索結(jié)果里經(jīng)常提供非公開可以訪問的論文鏈接,這些論文被標注為pdf,如果用戶點擊的,可以在秘塔網(wǎng)頁的小框中閱讀pdf全文但無法下載,如果點擊pdf對應的鏈接,就會被鏈接到一個文庫類網(wǎng)站的登錄界面,這個應該是為了表明pdf的來源。根據(jù)筆者的用戶感知,這個在線閱讀的pdf應該是秘塔數(shù)據(jù)庫提供的。其實這個技術(shù)上也不難證明,我們代理訴訟時碰到此問題,通常用抓包軟件顯示該文檔的真實ip地址。如果這個ip地址位于秘塔的服務器,則說明是秘塔提供的。
3、過擬合可能導致輸出結(jié)果侵權(quán)
秘塔的搜索結(jié)果如果出現(xiàn)了被索引論文的主要內(nèi)容,可能涉嫌“洗稿”類著作權(quán)侵權(quán)。不同于普通的搜索引擎,秘塔的搜索是人工智能的問答式引擎,其結(jié)果會整合很多篇新聞、文章、論文,多數(shù)情況下,這種整合后輸出的結(jié)果構(gòu)成合理使用,法律依據(jù)是我國著作權(quán)法規(guī)定的,為介紹、評論某一作品或者說明某一問題,在作品中適當引用他人已發(fā)表作品的構(gòu)成合理使用。但少部分情況下,人工智能會因為訓練技術(shù)問題出現(xiàn)過擬合(outfing)[iv],導致輸出的結(jié)果內(nèi)容和訓練內(nèi)容一致,此時,比如秘塔預訓練論文時有過擬合,就會出現(xiàn)搜索結(jié)果照搬索引論文文獻內(nèi)容的情況,哪怕照搬的是部分內(nèi)容也是侵犯被索引文獻信息網(wǎng)絡傳播權(quán)的,這時的行為性質(zhì)就從合理使用變成了抄襲。
如果出現(xiàn)搜索結(jié)果抄襲知網(wǎng)論文,或者秘塔制做索引數(shù)據(jù)庫、或者向用戶提供論文pdf的在線閱讀功能的情況,都是侵犯信息網(wǎng)絡傳播權(quán)的行為,如果知網(wǎng)據(jù)此要求秘塔斷開鏈接的,筆者認為是正當?shù)摹?/p>
4、抓取學術(shù)文獻題錄及摘要數(shù)據(jù)不一定侵權(quán)
筆者注意到,知網(wǎng)的侵權(quán)通知中稱秘塔向用戶提供知網(wǎng)的學術(shù)文獻題錄及摘要數(shù)據(jù),涉嫌侵權(quán)。對秘塔抓取這兩部分網(wǎng)頁是否侵權(quán),筆者倒是有不同意見。網(wǎng)頁不同于論文,知網(wǎng)的學術(shù)文獻題錄(標題、作者、發(fā)表年份、期刊卷號、期號、頁碼以及摘要)及摘要網(wǎng)頁都是國內(nèi)用戶公開可以訪問的,知網(wǎng)作為在中國境內(nèi)中文學術(shù)文獻網(wǎng)絡數(shù)據(jù)庫服務市場具有支配地位的經(jīng)營者,其不允許秘塔搜索抓取這兩部分公開信息需要有合理的理由。如果秘塔清除了索引庫中的知網(wǎng)論文,并且不再向用戶提供知網(wǎng)論文的在線閱讀功能,此時,知識產(chǎn)權(quán)侵權(quán)的爭議就很小了,根據(jù)《反壟斷法》和《互聯(lián)網(wǎng)搜索引擎服務自律公約》,知網(wǎng)不允許秘塔搜索抓取這兩部分公開信息就不再具有合理的理由。
本文作者:游云庭,上海大邦律師事務所高級合伙人,知識產(chǎn)權(quán)律師。本文僅代表作者觀點。
[i] https://www.cnki.net/robots.txt
[ii] https://bookstr.com/article/morality-and-legality-in-perplexitys-new-search-engine/
[iii] https://www.36kr.com/p/2895952320125831
[iv] https://www.ibm.com/cn-zh/topics/overfitting
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.