語音交互的"卡頓感"終于要結束了。OpenAI最新發布的三款實時語音模型,把延遲、打斷、多語言三大痛點一次性打包解決。
核心看點是GPT-Realtime-2。這是首款具備GPT-5級推理能力的語音模型——注意,不是文字版GPT-5,是語音模型直接擁有同等推理水平。它能在對話流中實時思考、調用工具、處理用戶的打斷和糾正,開發者終于能做出真正"聽得懂人話"的語音助手。
![]()
定價策略很清晰:音頻輸入每百萬Token 32美元(約218元人民幣),輸出翻倍到64美元,緩存輸入幾乎免費——0.4美元。這個價差設計明顯在鼓勵多輪對話場景。
另外兩款分工明確。GPT-Realtime-Translate支持70種輸入語言轉13種輸出語言,翻譯速度跟說話同步,跨國會議不用等;GPT-Realtime-Whisper專攻低延遲流式轉錄,邊說邊出字幕,按分鐘計費0.017美元。
翻譯和轉錄走分鐘計費,推理模型走Token計費——OpenAI用兩套計價體系區分了"被動工具"和"主動智能"的邊界。開發者按需調用,Realtime API成了語音應用的底層基礎設施。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.