騰訊開源多模態(tài)搜索訓(xùn)練方案，打破AI數(shù)據(jù)黑箱

2026-05-07 14:46:17　來源: 像素與芯片

北京舉報

分享至

為什么頂尖AI搜索工具的能力難以復(fù)制？問題可能出在訓(xùn)練數(shù)據(jù)上。

5月7日消息，騰訊混元聯(lián)合加州大學(xué)洛杉磯分校、香港中文大學(xué)等機構(gòu)，發(fā)布OpenSearch-VL開源方案。這套方案瞄準(zhǔn)多模態(tài)搜索智能體的訓(xùn)練瓶頸——用強化學(xué)習(xí)技術(shù)，讓AI學(xué)會"邊搜邊想、邊看邊查"的復(fù)雜推理能力。

所謂多模態(tài)搜索智能體，簡單說就是能同時處理圖片和文字，還會主動調(diào)用搜索引擎、圖像處理工具進行多步驟推理的AI系統(tǒng)。它的核心任務(wù)是解決知識密集型的復(fù)雜視覺問答——比如給你一張模糊的老照片，問"這是哪座建筑、建于哪年"，AI得先銳化圖像、識別文字、再交叉驗證歷史資料。

研究團隊指出，目前這個領(lǐng)域的最大障礙是數(shù)據(jù)不透明。現(xiàn)有頂尖系統(tǒng)多由商業(yè)公司主導(dǎo)，數(shù)據(jù)來源、過濾標(biāo)準(zhǔn)、工具使用軌跡全是黑箱，學(xué)術(shù)界想復(fù)現(xiàn)都無從下手。

OpenSearch-VL的解法是從頭開源：數(shù)據(jù)管道、工具環(huán)境、訓(xùn)練算法全部公開。

數(shù)據(jù)構(gòu)建上，團隊利用維基百科的超鏈接圖譜做"多跳實體路徑采樣"——讓AI不能一步直達答案，必須像人類查資料那樣層層遞進。中間實體被重寫為模糊描述，錨點實體綁定到源圖像，專門抑制"檢索捷徑"。最終產(chǎn)出SearchVL-SFT-36k數(shù)據(jù)集，平均每條軌跡包含6.3次工具調(diào)用。其中10%數(shù)據(jù)還被刻意降質(zhì)處理，逼AI學(xué)會"先處理圖像、再查詢知識"的主動感知行為。

工具環(huán)境也比傳統(tǒng)檢索智能體更豐富：文本搜索、圖像搜索、OCR、裁剪、銳化、超分辨率、透視校正全部統(tǒng)一。這意味著AI在問搜索引擎之前，可以先自己動手"修圖"。

實驗結(jié)果顯示，OpenSearch-VL-30B-A3B模型將基線平均分從47.8提升至61.6，在VDR、MMSearch等基準(zhǔn)上均有顯著增益。消融實驗進一步驗證各組件價值：去掉源錨點錨定、模糊重寫或分階段過濾，平均得分會下降8.2至11.5點。

該研究已于5月6日發(fā)表于arXiv平臺，GitHub倉庫同步開放。對于想訓(xùn)練自家多模態(tài)搜索智能體的團隊來說，這可能是目前最完整的公開配方。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.