語音交互正在經歷一次關鍵升級。OpenAI最新發布的GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper三款模型,試圖解決一個長期存在的痛點:語音助手的"腦子"遠不如文本模型好用。
現有的語音交互方案——包括ChatGPT的音頻模式和Google Gemini的實時對話功能——背后運行的模型明顯弱于純文本版本。當你在語音模式下向AI拋出一個需要多步推理的問題,它往往力不從心。而專門的文本推理模型雖然聰明,卻需要花時間"思考",無法實時響應。
![]()
OpenAI認為這種妥協已經過時。現代語音代理需要同時做到:理解真實意圖、追蹤對話上下文、應對突發變化、調用外部工具、給出恰當回應——而且這一切必須發生在對話進行的當下,不能有明顯的停頓或延遲。
為此,OpenAI設計了三種可組合的新交互模式。"Voice-to-Action"讓用戶用語音描述需求,系統自主推理、調用工具并完成任務。"Systems-to-Voice"則將軟件狀態轉化為語音指導——比如旅行App可以在航班延誤時,實時告知乘客轉機仍來得及、規劃最快路線并確認行李轉運。"Voice-to-Voice"支持跨語言的實時對話,德國電信已將其用于客服測試。
核心產品GPT-Realtime-2被OpenAI定位為"GPT-5級別推理能力"的實時語音模型。技術參數上,上下文窗口從32,000 tokens擴展至128,000 tokens,支持更長、更復雜的對話。模型可并行調用多個工具,并通過"let me check that"等短語將操作過程 audible 化。引入的"preambles"機制——如"one moment"——讓用戶感知系統正在處理;出錯時也不再沉默,而是主動說明"我現在遇到點問題"。
專業術語、專有名詞和醫學詞匯的處理能力較前代提升,語調可控性也更強:解決問題時冷靜、面對沮喪用戶時共情、任務成功后積極。開發者可在五檔推理強度間調節——minimal、low、medium、high、xhigh,默認"low"以降低簡單請求的延遲,復雜任務則可調用更多算力。
基準測試顯示,GPT-Realtime-2在"high"設置下,Big Bench Audio準確率達到96.6%,較前代GPT-Realtime-1.5的81.4%顯著提升。Audio M...
這些功能即將接入ChatGPT的音頻模式。OpenAI的判斷很直接:"語音現在可以成為真正的主要交互界面。"
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.