語音交互的延遲問題,終于有人認真解決了。OpenAI在5月7日一次性推出三款實時語音AI產品,覆蓋對話、翻譯、轉寫三個場景。這不是功能補丁,而是一套完整的語音基礎設施。
三款產品分工明確。GPT-Realtime-2主打實時對話,官方將其定位為"具備GPT-5系列同等推理能力的語音模型"。關鍵指標是處理速度——快到能支撐真正流暢的來回對話,而不是你說完等兩秒才有反應。基準測試顯示,它的分數超過了前代GPT-Realtime-1.5。不過第三方機構Artificial Analysis的測試暴露了一個尷尬:它比不過Step-Audio R1.1和Grok Voice Think Fast 1.0,只贏了Gemini 3.1 Flash Live Preview。
![]()
GPT-Realtime-Translate解決的是同聲傳譯場景。用戶說話的同時,系統實時輸出另一種語言的語音。OpenAI研究員Jason Liu在社交媒體上展示了英語實時轉日語的效果。定價按分鐘算:每分鐘0.034美元,約合人民幣5.33元。這個價格放在專業會議場景不算貴,但個人用戶可能會猶豫。
![]()
GPT-Realtime-Whisper負責實時轉寫,說話的同時出文字,瞄準的是實時字幕、會議記錄等場景。每分鐘0.017美元,約2.67元人民幣,是三款中最便宜的。
API定價細節值得細看。GPT-Realtime-2按token計費:輸入每百萬token 32美元(約5020元人民幣),輸出每百萬token 64美元(約1萬元人民幣)。這種計價方式和傳統語音服務按分鐘計費完全不同,開發者需要重新算成本賬。
![]()
三款產品目前都通過API開放。OpenAI在開發者文檔中公布了完整的技術規格,從模型能力到集成方式一應俱全。這種"發布即可用"的節奏,明顯是在搶企業客戶的落地窗口期。
一個值得注意的信號:OpenAI同一天還更新了GPT-5.5 Instant作為ChatGPT的默認模型。語音、文本兩條線同時推進,說明多模態不再是遠景,而是正在標準化的基礎設施。對于做實時語音應用的開發者來說,現在需要評估的或許不是"要不要用",而是"用哪家的"。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.