手機可能是首個真正被 AI 接管的終端。全球有數(shù)十億智能手機用戶,每天生產(chǎn)著海量的數(shù)據(jù)。這些數(shù)據(jù)成為 AI 的燃料,反過來,AI 讓手機更加智能。
當蘋果還在持續(xù)評估 Siri 的底層供應(yīng)商之時,安卓手機廠商已經(jīng)摩拳擦掌,在能部署 AI 功能的地方都塞上了 AI。無論是字節(jié)跳動與手機廠商中興在操作系統(tǒng)層面合作推出的豆包 AI 手機工程樣機,還是智譜開源能夠自動化操作手機界面的 AI Agent 模型 AutoGLM,都引起了市場對 AI 手機或手機 Agent 的高度關(guān)注。
按照業(yè)界的預期,Agent 將非常深刻地改變在智能終端上的人機交互邏輯。從主動式的 AI 響應(yīng)對話,到“次拋型”的 APP,千人千面的終端服務(wù)將成為可能。
無論是 AI 手機還是在手機中開源 Agent 模型,對于 Agent 應(yīng)用與終端的普及、提高行業(yè)智能體體驗的底線都有正向的影響。開源模型也在一定程度上緩解了終端廠商的數(shù)據(jù)安全焦慮,并能夠更好地融合進廠商原有的 Agent 助手系統(tǒng),而非必須“另起爐灶”。與此同時,互聯(lián)網(wǎng)應(yīng)用也獲得了一個強大的基礎(chǔ),用于開發(fā)應(yīng)用內(nèi)的自主操控智能體應(yīng)用。
在當下的實踐中,手機應(yīng)用主要分為娛樂、查詢和工作三類。相比點外賣、買咖啡這些日常小事,AI 手機里的 Agent 更大的價值可能在于提升工作效率——幫用戶快速搞定那些原本復雜耗時的任務(wù),比如深度信息搜索、全網(wǎng)比價購物、個人數(shù)據(jù)查詢管理等。這些事情以前可能要折騰半天,現(xiàn)在 Agent 能幫你幾分鐘就解決。
例如,Agent 可以通過整理手機中的聊天記錄、照片視頻、購物歷史等數(shù)據(jù),幫你回憶某段時間的生活軌跡或重要事件。
然而,現(xiàn)在移動終端面臨的核心問題是:缺乏統(tǒng)一的 Agent 生態(tài)系統(tǒng),無法有效打通不同應(yīng)用之間的功能調(diào)用。加上行業(yè)內(nèi)尚未就 Agent 生態(tài)標準形成統(tǒng)一共識,這些因素共同導致 AI 手機很難通過應(yīng)用工具調(diào)用的方式實現(xiàn)真正的智能操作。
因此,為了讓手機 Agent 能夠通用地使用不同應(yīng)用,目前只能“曲線救國”——通過圖形用戶界面(GUI,Graphical User Interface)的方式,模擬人手操作來控制手機。操作邏輯其實就是多模態(tài)理解:先看懂手機當前的屏幕截圖,然后像人一樣去點擊相應(yīng)的 APP 和按鈕,最后完成具體任務(wù)。
這種方式適用性很強,理論上能操作各種 APP。但問題是移動設(shè)備的算力和存儲有限,面臨兩難選擇:7B 以下的小模型處理復雜 GUI 任務(wù)力不從心;而 7B 以上的大模型雖然功能強大,但體積太大、成本太高,在手機上跑起來很困難。
AI 手機的路線之爭:云端還是端側(cè)?
目前,AI 手機(包括手機 Agent)主要分為三條技術(shù)路線:純云端模型、純端側(cè)模型和端云協(xié)同模型。
純云端模型多用于移動端(例如 AI 手機等)需要多個步驟和任務(wù)部署的復雜任務(wù)。另外,在多 APP 操作的場景下,由于任務(wù)相對較難,需要較強的推理能力和多模態(tài)理解,也會更多地使用云端模型。
盡管云端模型整體性能效果比端側(cè)模型強,但問題在于數(shù)據(jù)存放在云端,面臨包括照片、視頻、聊天信息、郵件等在內(nèi)的數(shù)據(jù)隱私問題。此外,高成本和帶寬也是不容忽視的關(guān)鍵問題。因此,在一些涉及個人數(shù)據(jù)、隱私性較強的場景則需要純端側(cè)模型。對于端云協(xié)同框架,則適用于云端和端側(cè)能力差別不顯著的場景。
一個關(guān)鍵的問題付出水面:在手機這樣算力、能耗和隱私都極度受限的終端上,是否真的存在一種現(xiàn)實解法——既不過度依賴云端,又能跑得動 GUI Agent?
近期,香港大學黃超教授團隊給出了一個平衡成本和性能的新方案,我們從這個案例中或許可以看到一些啟發(fā)。研究團隊開源了一個叫 OpenPhone 的項目(Mobile Agentic Foundation Models)[1]。在該項目中,不僅開源了一個純端側(cè) 3B 尺寸的小模型,還提供了一套端云協(xié)同的方案,這樣既能在隱私敏感的場景下用本地模型處理,又能在隱私不敏感的復雜任務(wù)上調(diào)用云端大模型來保證完成質(zhì)量。
考慮手機的能耗限制和實際部署的可能性,研究人員基于開源的 Qwen2.5-VL-3B 模型和自動化生成的 GUI 數(shù)據(jù),通過監(jiān)督微調(diào)和強化學習策略實現(xiàn)了與通用的 7B 模型相當?shù)男阅堋?/p>
![]()
(來源:arXiv)
OpenPhone 還引入了一種類似于思維鏈(CoT,Chain of Thought)的長推理機制。該機制的“巧妙之處”在于,將包括屏幕狀態(tài)、任務(wù)進度和推理過程等在內(nèi)的每一步信息,從存儲原始高分辨率截圖壓縮成精簡的文本描述,有效地降低了歷史上下文的存儲負擔,從而實現(xiàn)了 Agent 的長期反思以及決策能力。
在 138 項手機任務(wù)的測試中,OpenPhone 在性能接近 9B 模型的情況下,速度提升了 4 倍。“從端側(cè)測試結(jié)果來看,訓練數(shù)據(jù)對于 GUI Agent 的表現(xiàn)至關(guān)重要,OpenPhone 提供了一套可以最大化人工標記數(shù)據(jù)價值的數(shù)據(jù)生成管道,利用有限的數(shù)據(jù)來盡可能增強 GUI Agent 的能力。”黃超告訴 DeepTech。
該研究證明,盡管小模型在泛化能力上不如大模型,但其在手機 Agent 場景中,可通過長推理等方式激發(fā)小模型的執(zhí)行任務(wù)能力,其在移動端的潛力同樣不容忽視。
![]()
圖丨 OpenPhone 的總體框架(來源:arXiv)
黃超解釋道:“在 OpenPhone 項目中,端云協(xié)同框架不僅可節(jié)約模型本身的 token 開銷,還能降低成本。但是,如果模型云端效果顯著好于端側(cè),則依然會采用云端模型來進行操作。”
研究團隊坦言,該框架在實際部署過程中,可能會面臨大量工程性的優(yōu)化問題。近期,他們也在和企業(yè)界溝通探討未來合作的方式。“盡管目前 AI 手機的大部分解決方案依賴于云端,但業(yè)界對端側(cè)突破仍寄予厚望。從我們與企業(yè)的交流來看,他們更傾向于在端側(cè)解決,云端可能只是當前的權(quán)宜之計。”黃超表示。
可以看到,端云協(xié)同是在當下平衡隱私和效果(成功率)的一個比較可行的方案。如果不考慮能耗和終端部署情況,端側(cè)處理最為理想,并能幫設(shè)備廠商節(jié)約云端算力。未來,端云協(xié)同仍會是一個比較理想的范式。
業(yè)內(nèi)人士告訴 DeepTech,端云協(xié)同長期來看是最佳選擇,不過短期內(nèi)受制于端側(cè)芯片算力和內(nèi)存限制,端上不太可能完整運行所有 AI 手機需要的模型功能,仍需要較長的時間和行業(yè)內(nèi)的軟硬協(xié)同發(fā)展。
因此,比較理想的狀態(tài)自然是簡單任務(wù)能路由到端側(cè)直接運行,復雜任務(wù)路由到云端執(zhí)行,但是實現(xiàn)這樣的目標需要先跑通 AI 手機生態(tài)實現(xiàn)意圖理解的數(shù)據(jù)飛輪,模型才可能將來做到這一目標。
AI 手機真正的難題:誰來開放操作系統(tǒng)的權(quán)限?
回到一個 AI 手機繞不過的問題:包括社交軟件、操作軟件或信息查詢軟件在內(nèi)的主流 APP,會禁止手機 Agent 的訪問權(quán)限。
從智能手機的角度來看,如果用戶通過手機 Agent 來操作所有 APP,即通過 GUI 方式進行訪問,那么 APP 有可能喪失流量入口,直接導致 APP 賴以為生的廣告價值歸零。
有專家指出,現(xiàn)在的問題在于,整個移動端的 AI 手機整體生態(tài)會往哪里走,可能取決于手機廠商的戰(zhàn)略制定。總體來看,解決這個問題有兩種方案:一是 AI 手機廠商有一套自己的生態(tài),二是未來可能也會涉及到流量入口的合作。
在 DeepTech 與幾位業(yè)內(nèi)人士的交流中,普遍認為 AI 手機的生態(tài)并非僅依賴某幾家企業(yè)或技術(shù)進步的問題,而是整個行業(yè)共同面臨的生態(tài)問題,包括技術(shù)提供方(例如 AI 助手能力提供方、操作系統(tǒng)廠商、硬件供應(yīng)鏈模型企業(yè))、應(yīng)用與服務(wù)方(例如端硬件、互聯(lián)網(wǎng)應(yīng)用)、用戶、開發(fā)者和監(jiān)管機構(gòu)等。
對于手機操作系統(tǒng)本身的權(quán)限開放,業(yè)內(nèi)人士指出,需要謹慎但堅定的推動,不宜操之過急但也萬不可故步自封。其類似自動駕駛上路的發(fā)展,可以考慮在滿足審計安全要求下,通過試點硬件產(chǎn)品和應(yīng)用場景開放合作,逐步推動相關(guān)場景落地和教育,并且同步建設(shè)起更完整的生態(tài)機制。
談及在操作系統(tǒng)層面兼顧支持高效模型調(diào)度、有效管理本地安全權(quán)限以及保障用戶隱私策略的策略,一位業(yè)內(nèi)人士告訴 DeepTech,這是一個較復雜的問題,短期來看需要先建立 Agent 與用戶、系統(tǒng)和應(yīng)用之間的互信授權(quán)機制,同時建立起關(guān)于 Agent 的審計與安全柵欄,明確智能體“上路”的水平要求和安全底線。長期來看,該方向的發(fā)展極大程度取決于 AI 和大模型本身的發(fā)展進度,需要審時度勢地考慮實際發(fā)展情況進行決策。
此外還需要看到的是,無論是云端還是端側(cè)模型,AI 手機任務(wù)的成功率目前尚不及人類水平,未來還需要在準確率和可靠性方面同步提升。并且,純 GUI Agent 整體響應(yīng)速度還有很大的提升空間。
黃超認為,未來模型上下文協(xié)議(MCP,Model Context Protocol)生態(tài)輔助 GUI 作為解決方案,有望提升手機 Agent 的整體響應(yīng)速度和準確率。“就像智能手機需要 APP Store,AI 手機也需要類似的平臺,讓整個社區(qū)都活躍起來貢獻高質(zhì)量的 MCP,再去調(diào)用它們。從生態(tài)角度來看,APP 只有保持開放狀態(tài)并放出自己的 MCP,構(gòu)建一套更加完善高效的合作模式,才能守住自己的流量,否則流量也有可能會被其他類似 APP 搶走。未來應(yīng)用可能會呈現(xiàn)出兩種交互模式:一種是面向智能體的交互,另一種是面向人類的交互。”
可見,AI 手機真正廣泛應(yīng)用的標志,不在于模型多強,而是不同 APP 應(yīng)用廠商如何共建手機智能體的環(huán)境。當然,這同樣需要整個生態(tài)系統(tǒng)共同推動技術(shù)的發(fā)展和落地。
參考資料:
1.https://arxiv.org/abs/2510.22009v1
排版:劉雅坤
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.