誰在決定AI手機的未來：模型、系統(tǒng)，還是生態(tài)？

2026-01-13 16:16:47　來源: DeepTech深科技

北京舉報

分享至

手機可能是首個真正被 AI 接管的終端。全球有數(shù)十億智能手機用戶，每天生產(chǎn)著海量的數(shù)據(jù)。這些數(shù)據(jù)成為 AI 的燃料，反過來，AI 讓手機更加智能。

當蘋果還在持續(xù)評估 Siri 的底層供應(yīng)商之時，安卓手機廠商已經(jīng)摩拳擦掌，在能部署 AI 功能的地方都塞上了 AI。無論是字節(jié)跳動與手機廠商中興在操作系統(tǒng)層面合作推出的豆包 AI 手機工程樣機，還是智譜開源能夠自動化操作手機界面的 AI Agent 模型 AutoGLM，都引起了市場對 AI 手機或手機 Agent 的高度關(guān)注。

按照業(yè)界的預期，Agent 將非常深刻地改變在智能終端上的人機交互邏輯。從主動式的 AI 響應(yīng)對話，到“次拋型”的 APP，千人千面的終端服務(wù)將成為可能。

無論是 AI 手機還是在手機中開源 Agent 模型，對于 Agent 應(yīng)用與終端的普及、提高行業(yè)智能體體驗的底線都有正向的影響。開源模型也在一定程度上緩解了終端廠商的數(shù)據(jù)安全焦慮，并能夠更好地融合進廠商原有的 Agent 助手系統(tǒng)，而非必須“另起爐灶”。與此同時，互聯(lián)網(wǎng)應(yīng)用也獲得了一個強大的基礎(chǔ)，用于開發(fā)應(yīng)用內(nèi)的自主操控智能體應(yīng)用。

在當下的實踐中，手機應(yīng)用主要分為娛樂、查詢和工作三類。相比點外賣、買咖啡這些日常小事，AI 手機里的 Agent 更大的價值可能在于提升工作效率——幫用戶快速搞定那些原本復雜耗時的任務(wù)，比如深度信息搜索、全網(wǎng)比價購物、個人數(shù)據(jù)查詢管理等。這些事情以前可能要折騰半天，現(xiàn)在 Agent 能幫你幾分鐘就解決。

例如，Agent 可以通過整理手機中的聊天記錄、照片視頻、購物歷史等數(shù)據(jù)，幫你回憶某段時間的生活軌跡或重要事件。

然而，現(xiàn)在移動終端面臨的核心問題是：缺乏統(tǒng)一的 Agent 生態(tài)系統(tǒng)，無法有效打通不同應(yīng)用之間的功能調(diào)用。加上行業(yè)內(nèi)尚未就 Agent 生態(tài)標準形成統(tǒng)一共識，這些因素共同導致 AI 手機很難通過應(yīng)用工具調(diào)用的方式實現(xiàn)真正的智能操作。

因此，為了讓手機 Agent 能夠通用地使用不同應(yīng)用，目前只能“曲線救國”——通過圖形用戶界面（GUI，Graphical User Interface）的方式，模擬人手操作來控制手機。操作邏輯其實就是多模態(tài)理解：先看懂手機當前的屏幕截圖，然后像人一樣去點擊相應(yīng)的 APP 和按鈕，最后完成具體任務(wù)。

這種方式適用性很強，理論上能操作各種 APP。但問題是移動設(shè)備的算力和存儲有限，面臨兩難選擇：7B 以下的小模型處理復雜 GUI 任務(wù)力不從心；而 7B 以上的大模型雖然功能強大，但體積太大、成本太高，在手機上跑起來很困難。

AI 手機的路線之爭：云端還是端側(cè)？

目前，AI 手機（包括手機 Agent）主要分為三條技術(shù)路線：純云端模型、純端側(cè)模型和端云協(xié)同模型。

純云端模型多用于移動端（例如 AI 手機等）需要多個步驟和任務(wù)部署的復雜任務(wù)。另外，在多 APP 操作的場景下，由于任務(wù)相對較難，需要較強的推理能力和多模態(tài)理解，也會更多地使用云端模型。

盡管云端模型整體性能效果比端側(cè)模型強，但問題在于數(shù)據(jù)存放在云端，面臨包括照片、視頻、聊天信息、郵件等在內(nèi)的數(shù)據(jù)隱私問題。此外，高成本和帶寬也是不容忽視的關(guān)鍵問題。因此，在一些涉及個人數(shù)據(jù)、隱私性較強的場景則需要純端側(cè)模型。對于端云協(xié)同框架，則適用于云端和端側(cè)能力差別不顯著的場景。

一個關(guān)鍵的問題付出水面：在手機這樣算力、能耗和隱私都極度受限的終端上，是否真的存在一種現(xiàn)實解法——既不過度依賴云端，又能跑得動 GUI Agent？

近期，香港大學黃超教授團隊給出了一個平衡成本和性能的新方案，我們從這個案例中或許可以看到一些啟發(fā)。研究團隊開源了一個叫 OpenPhone 的項目（Mobile Agentic Foundation Models）[1]。在該項目中，不僅開源了一個純端側(cè) 3B 尺寸的小模型，還提供了一套端云協(xié)同的方案，這樣既能在隱私敏感的場景下用本地模型處理，又能在隱私不敏感的復雜任務(wù)上調(diào)用云端大模型來保證完成質(zhì)量。

考慮手機的能耗限制和實際部署的可能性，研究人員基于開源的 Qwen2.5-VL-3B 模型和自動化生成的 GUI 數(shù)據(jù)，通過監(jiān)督微調(diào)和強化學習策略實現(xiàn)了與通用的 7B 模型相當?shù)男阅堋?/p>

（來源：arXiv）

OpenPhone 還引入了一種類似于思維鏈（CoT，Chain of Thought）的長推理機制。該機制的“巧妙之處”在于，將包括屏幕狀態(tài)、任務(wù)進度和推理過程等在內(nèi)的每一步信息，從存儲原始高分辨率截圖壓縮成精簡的文本描述，有效地降低了歷史上下文的存儲負擔，從而實現(xiàn)了 Agent 的長期反思以及決策能力。

在 138 項手機任務(wù)的測試中，OpenPhone 在性能接近 9B 模型的情況下，速度提升了 4 倍。“從端側(cè)測試結(jié)果來看，訓練數(shù)據(jù)對于 GUI Agent 的表現(xiàn)至關(guān)重要，OpenPhone 提供了一套可以最大化人工標記數(shù)據(jù)價值的數(shù)據(jù)生成管道，利用有限的數(shù)據(jù)來盡可能增強 GUI Agent 的能力。”黃超告訴 DeepTech。

該研究證明，盡管小模型在泛化能力上不如大模型，但其在手機 Agent 場景中，可通過長推理等方式激發(fā)小模型的執(zhí)行任務(wù)能力，其在移動端的潛力同樣不容忽視。

圖丨 OpenPhone 的總體框架（來源：arXiv）

黃超解釋道：“在 OpenPhone 項目中，端云協(xié)同框架不僅可節(jié)約模型本身的 token 開銷，還能降低成本。但是，如果模型云端效果顯著好于端側(cè)，則依然會采用云端模型來進行操作。”

研究團隊坦言，該框架在實際部署過程中，可能會面臨大量工程性的優(yōu)化問題。近期，他們也在和企業(yè)界溝通探討未來合作的方式。“盡管目前 AI 手機的大部分解決方案依賴于云端，但業(yè)界對端側(cè)突破仍寄予厚望。從我們與企業(yè)的交流來看，他們更傾向于在端側(cè)解決，云端可能只是當前的權(quán)宜之計。”黃超表示。

可以看到，端云協(xié)同是在當下平衡隱私和效果（成功率）的一個比較可行的方案。如果不考慮能耗和終端部署情況，端側(cè)處理最為理想，并能幫設(shè)備廠商節(jié)約云端算力。未來，端云協(xié)同仍會是一個比較理想的范式。

業(yè)內(nèi)人士告訴 DeepTech，端云協(xié)同長期來看是最佳選擇，不過短期內(nèi)受制于端側(cè)芯片算力和內(nèi)存限制，端上不太可能完整運行所有 AI 手機需要的模型功能，仍需要較長的時間和行業(yè)內(nèi)的軟硬協(xié)同發(fā)展。

因此，比較理想的狀態(tài)自然是簡單任務(wù)能路由到端側(cè)直接運行，復雜任務(wù)路由到云端執(zhí)行，但是實現(xiàn)這樣的目標需要先跑通 AI 手機生態(tài)實現(xiàn)意圖理解的數(shù)據(jù)飛輪，模型才可能將來做到這一目標。

AI 手機真正的難題：誰來開放操作系統(tǒng)的權(quán)限？

回到一個 AI 手機繞不過的問題：包括社交軟件、操作軟件或信息查詢軟件在內(nèi)的主流 APP，會禁止手機 Agent 的訪問權(quán)限。

從智能手機的角度來看，如果用戶通過手機 Agent 來操作所有 APP，即通過 GUI 方式進行訪問，那么 APP 有可能喪失流量入口，直接導致 APP 賴以為生的廣告價值歸零。

有專家指出，現(xiàn)在的問題在于，整個移動端的 AI 手機整體生態(tài)會往哪里走，可能取決于手機廠商的戰(zhàn)略制定。總體來看，解決這個問題有兩種方案：一是 AI 手機廠商有一套自己的生態(tài)，二是未來可能也會涉及到流量入口的合作。

在 DeepTech 與幾位業(yè)內(nèi)人士的交流中，普遍認為 AI 手機的生態(tài)并非僅依賴某幾家企業(yè)或技術(shù)進步的問題，而是整個行業(yè)共同面臨的生態(tài)問題，包括技術(shù)提供方（例如 AI 助手能力提供方、操作系統(tǒng)廠商、硬件供應(yīng)鏈模型企業(yè)）、應(yīng)用與服務(wù)方（例如端硬件、互聯(lián)網(wǎng)應(yīng)用）、用戶、開發(fā)者和監(jiān)管機構(gòu)等。

對于手機操作系統(tǒng)本身的權(quán)限開放，業(yè)內(nèi)人士指出，需要謹慎但堅定的推動，不宜操之過急但也萬不可故步自封。其類似自動駕駛上路的發(fā)展，可以考慮在滿足審計安全要求下，通過試點硬件產(chǎn)品和應(yīng)用場景開放合作，逐步推動相關(guān)場景落地和教育，并且同步建設(shè)起更完整的生態(tài)機制。

談及在操作系統(tǒng)層面兼顧支持高效模型調(diào)度、有效管理本地安全權(quán)限以及保障用戶隱私策略的策略，一位業(yè)內(nèi)人士告訴 DeepTech，這是一個較復雜的問題，短期來看需要先建立 Agent 與用戶、系統(tǒng)和應(yīng)用之間的互信授權(quán)機制，同時建立起關(guān)于 Agent 的審計與安全柵欄，明確智能體“上路”的水平要求和安全底線。長期來看，該方向的發(fā)展極大程度取決于 AI 和大模型本身的發(fā)展進度，需要審時度勢地考慮實際發(fā)展情況進行決策。

此外還需要看到的是，無論是云端還是端側(cè)模型，AI 手機任務(wù)的成功率目前尚不及人類水平，未來還需要在準確率和可靠性方面同步提升。并且，純 GUI Agent 整體響應(yīng)速度還有很大的提升空間。

黃超認為，未來模型上下文協(xié)議（MCP，Model Context Protocol）生態(tài)輔助 GUI 作為解決方案，有望提升手機 Agent 的整體響應(yīng)速度和準確率。“就像智能手機需要 APP Store，AI 手機也需要類似的平臺，讓整個社區(qū)都活躍起來貢獻高質(zhì)量的 MCP，再去調(diào)用它們。從生態(tài)角度來看，APP 只有保持開放狀態(tài)并放出自己的 MCP，構(gòu)建一套更加完善高效的合作模式，才能守住自己的流量，否則流量也有可能會被其他類似 APP 搶走。未來應(yīng)用可能會呈現(xiàn)出兩種交互模式：一種是面向智能體的交互，另一種是面向人類的交互。”

可見，AI 手機真正廣泛應(yīng)用的標志，不在于模型多強，而是不同 APP 應(yīng)用廠商如何共建手機智能體的環(huán)境。當然，這同樣需要整個生態(tài)系統(tǒng)共同推動技術(shù)的發(fā)展和落地。

參考資料：

1.https://arxiv.org/abs/2510.22009v1

排版：劉雅坤

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.