品玩5月11日訊,北京智源人工智能研究院聯(lián)合北大、北航等機構正式發(fā)布FlagSafe大模型安全體系。該體系聚焦紅隊演練、藍隊防御與白盒透視三大方向,旨在構建覆蓋風險發(fā)現(xiàn)、治理與解釋的完整閉環(huán)。
針對跨模態(tài)及具身智能帶來的復合風險,F(xiàn)lagSafe確立五項安全紅線,并建立全面評估基線。紅隊方面,通過Eval-Anything與VLA-Arena框架,實現(xiàn)從全模態(tài)能力到物理世界行動的風險主動暴露;藍隊方面,集成Align-Anything與ClawKeeper等技術,形成從訓練對齊到動態(tài)內(nèi)容監(jiān)測的持續(xù)防御機制;白盒方面,深入模型內(nèi)部機理與數(shù)據(jù)溯源,精準定位風險根因并提供修正依據(jù)。
該體系標志著我國在大模型安全協(xié)同生態(tài)建設上邁出關鍵一步,未來將持續(xù)匯聚科研力量,推動行業(yè)標準制定,為人工智能高質(zhì)量發(fā)展保駕護航。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.