為什么頂尖AI搜索工具的能力難以復(fù)制?問題可能出在訓(xùn)練數(shù)據(jù)上。
5月7日消息,騰訊混元聯(lián)合加州大學(xué)洛杉磯分校、香港中文大學(xué)等機構(gòu),發(fā)布OpenSearch-VL開源方案。這套方案瞄準(zhǔn)多模態(tài)搜索智能體的訓(xùn)練瓶頸——用強化學(xué)習(xí)技術(shù),讓AI學(xué)會"邊搜邊想、邊看邊查"的復(fù)雜推理能力。
![]()
所謂多模態(tài)搜索智能體,簡單說就是能同時處理圖片和文字,還會主動調(diào)用搜索引擎、圖像處理工具進行多步驟推理的AI系統(tǒng)。它的核心任務(wù)是解決知識密集型的復(fù)雜視覺問答——比如給你一張模糊的老照片,問"這是哪座建筑、建于哪年",AI得先銳化圖像、識別文字、再交叉驗證歷史資料。
研究團隊指出,目前這個領(lǐng)域的最大障礙是數(shù)據(jù)不透明。現(xiàn)有頂尖系統(tǒng)多由商業(yè)公司主導(dǎo),數(shù)據(jù)來源、過濾標(biāo)準(zhǔn)、工具使用軌跡全是黑箱,學(xué)術(shù)界想復(fù)現(xiàn)都無從下手。
OpenSearch-VL的解法是從頭開源:數(shù)據(jù)管道、工具環(huán)境、訓(xùn)練算法全部公開。
數(shù)據(jù)構(gòu)建上,團隊利用維基百科的超鏈接圖譜做"多跳實體路徑采樣"——讓AI不能一步直達答案,必須像人類查資料那樣層層遞進。中間實體被重寫為模糊描述,錨點實體綁定到源圖像,專門抑制"檢索捷徑"。最終產(chǎn)出SearchVL-SFT-36k數(shù)據(jù)集,平均每條軌跡包含6.3次工具調(diào)用。其中10%數(shù)據(jù)還被刻意降質(zhì)處理,逼AI學(xué)會"先處理圖像、再查詢知識"的主動感知行為。
工具環(huán)境也比傳統(tǒng)檢索智能體更豐富:文本搜索、圖像搜索、OCR、裁剪、銳化、超分辨率、透視校正全部統(tǒng)一。這意味著AI在問搜索引擎之前,可以先自己動手"修圖"。
實驗結(jié)果顯示,OpenSearch-VL-30B-A3B模型將基線平均分從47.8提升至61.6,在VDR、MMSearch等基準(zhǔn)上均有顯著增益。消融實驗進一步驗證各組件價值:去掉源錨點錨定、模糊重寫或分階段過濾,平均得分會下降8.2至11.5點。
該研究已于5月6日發(fā)表于arXiv平臺,GitHub倉庫同步開放。對于想訓(xùn)練自家多模態(tài)搜索智能體的團隊來說,這可能是目前最完整的公開配方。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.