聽雨 發自 凹非寺量子位 | 公眾號 QbitAI
OpenAI上新三款實時語音模型,不僅集成了GPT-5級的推理能力,還重擊了一拳同傳行業:
能緊跟發言人節奏的同聲傳譯,現在每分鐘成本兩毛五
三款模型分別是GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper,把端到端推理語音、同聲傳譯、流式轉寫三件事打包進了同一套API。
![]()
效果有點炸裂。
OpenAI員工Jason Liu對著麥克風說英語,GPT-Realtime-Translate直接實時把它翻譯成了日語。
整個過程流式進行,不需要等說話人說完一整句,翻譯就開始跟隨輸出。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
網友Claire Vo用ChatPRD結合GPT-Realtime-2,對著麥克風說了一句話:幫我寫一份產品需求文檔。
接下來的十分鐘里,她沒有碰過一次鍵盤,僅憑語音對話,AI就生成了一份完整的PRD。
她再用語音要求改格式,AI實時更新。全程對話驅動,沒有鍵盤。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
還有網友Ben Badejo,他把GPT-Realtime-2和OpenClaw集成在一起,語音指揮AI操控瀏覽器:打開Google,跳轉到華爾街日報。
AI一邊執行,一邊還主動匯報進度:正在打開瀏覽器……現在跳轉中。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
他表示,自己三月份就在琢磨如何給自己的龍蝦搭建語音對講系統,現在只需要把OpenClaw連接新的OpenAI模型就行了。
僅僅幾分鐘就完成了重大升級。
![]()
OpenAI這次放出的三款模型,也是各有定位:
- GPT-Realtime-2:帶著GPT-5級推理說人話辦人事;
- GPT-Realtime-Translate:能把70多種語言實時翻譯成13種語言輸出,每分鐘約2毛5。
- GPT-Realtime-Whisper:負責邊說話邊出文字的低延遲轉錄。
官方表示,語音正逐漸成為人們使用軟件最自然的方式之一。這三款模型一起,把語音從簡單的聽話回話,推向了真正「能干活的交互界面」——
這下,大模型真的能像人類一樣,跟你邊聊天邊把活干了。
三款新模型:能聽、能譯、能推理
GPT-Realtime-2是這次的重頭戲。
這是OpenAI首款搭載GPT-5級推理的語音模型,真正把推理能力塞進了端到端的語音交互里。
最直接的升級是上下文窗口:從32K直接拉到128K,翻了4倍。
這意味著語音Agent可以支撐更長的對話,處理更復雜的任務流,而不會聊著聊著就忘了前面說了什么。
推理強度還可以5檔調節:minimal、low、medium、high、xhigh,默認low。
問個天氣用low秒回,丟給它一個商業分析大題用xhigh慢慢推演。
但最體現GPT-5級推理的,是它開始學會邊說話邊干活了。
以前的語音助手,你說一句它回一句,腦子里一次只能想一件事。
GPT-Realtime-2現在支持并行工具調用,可以一邊嘴里說著正在查您的日程表,一邊后臺同時調用地圖、日歷、租房軟件。
【此處無法插入視頻,遺憾……可到量子位公眾號查看~】
官方demo中,負責人Romain Huet對著手機上的個人助手說一句:
- 我馬上有個客戶會議,能幫我看一下日程嗎?
模型會立刻查看日歷,回復說12分鐘后有一個跟Sablecrest Robotics 的CTO Alex Kim的會議。接著更新CRM,把今天的會議摘要和后續步驟錄入系統。
它還學會了Preambles,也就是前置語。后臺在拉數據的時候,會先對你說「讓我核實一下」,或者「稍等片刻」。
這個看似廢話的設計,最大程度緩解了等待時的焦慮。人在思考的時候也會說「呃讓我想想」,現在AI也學會了。
語氣也是可控的,平靜、共情、興奮,按需切換。
跑分怎么樣?
Big Bench Audio這項評估音頻推理能力的榜單上,GPT-Realtime-2(high檔)拿了96.6%,上代是81.4%,提升了15.2個點。
![]()
Audio MultiChallenge測多輪對話指令跟隨,xhigh檔跑出48.5%,上代只有34.7%,又漲了13.8個點。
![]()
定價方面,GPT-Realtime-2按token計費,$32/1M音頻輸入token,$64/1M音頻輸出token,緩存輸入只要$0.40。
和上一代GPT-Realtime-1.5價格持平,但能力大幅躍升。
在企業實測中,Zillow拿最難的對抗性基準跑了一遍,通話成功率從69%直接跳到95%,提升了26個百分點。
Zillow的SVP Josh Weisberg表示:
- GPT-Realtime-2在復雜語音交互中的智能和工具調用可靠性最突出,Fair Housing合規性也顯著增強。
這意味著語音Agent不再只是接接電話,而是真的能處理高價值、高合規要求的業務場景了。
再來看另外兩款模型。
GPT-Realtime-Translate,流式同聲傳譯。
真的是把同聲傳譯干到了白菜價。
支持70多種語言輸入,13種語言輸出。它不是說一句翻譯一句的回合制,而是說話人邊說母語,系統邊實時輸出翻譯,幾乎沒有停頓。
![]()
定價$0.034/分鐘,折合人民幣約2毛5
按這個價,連續翻譯一小時不到15塊,甚至比一杯奶茶還便宜。
![]()
對口音和方言包容度也很高。印度AI公司BolnaAI拿印地語、泰米爾語、泰盧固語這些口音濃重的語言去測,WER(詞錯誤率)比其他模型低12.5%,延遲能維持自然對話。
![]()
GPT-Realtime-Whisper,流式實時轉錄。
邊說話邊出文字,低延遲speech-to-text。
定價$0.017/分鐘,折合人民幣約1毛錢,一小時連續轉寫不到6塊錢。
應用場景主要在實時字幕、會議速記、客服通話記錄、課堂筆記。
以后開會,領導剛說完前半句,屏幕上的文字已經跟上了。
同傳更有性價比了
OpenAI這三款語音模型,沖擊最大的應該是同聲傳譯行業。
如果算一筆賬:
人工同聲傳譯,英語語種一天收費1.2萬到2.1萬元;非英語語種,比如日語、韓語、阿拉伯語,1.8萬元起。
通常需要2到3名譯員輪換,折算下來每小時數千至上萬元。
這還不算設備。同傳間、耳機、接收器,一套專業設備租一天也要幾千。
所以過去能用上同傳的,基本是這幾種場景:國際峰會、跨國企業董事會、高端醫療會診、法律仲裁。
普通開發者、中小教育機構、出海創業公司,基本和這個詞無緣。
但現在,OpenAI親自下場把這件事做進了API:
GPT-Realtime-Translate,定價是$0.034/分鐘,折合人民幣0.25元/分鐘
按這個價格,連續翻譯8小時,總成本不到120塊,還不到人工同傳兩分鐘的價錢,其中的差距大約是66倍
人工智能沖擊傳統行業……又一次具象化了。
![]()
不過呢,AI同傳和人工同傳目前還不是完全替代關系。
更準確來說,OpenAI做的是「讓同傳這件事不再是特權」
過去只有大型企業、政府機構、高端會議才用得起的服務,現在任何開發者都可以把它接進自己的產品。
一個出海電商客服系統,一個跨國視頻會議工具,一個在線教育平臺,甚至一個個人Chrome插件,都能擁有實時多語言翻譯能力。
可以想見,人類同傳的價值會向上遷移。文化語境、創意表達、法律精確性、醫療專業性,這些機器短期內還替代不了。
但基礎的、高頻的、標準化的翻譯需求,會被API大規模吞掉。
One More Thing
聊了這么多,三款新模型,如何接入呢?
最快的方式是打開OpenAI Playground(地址附在下方),瀏覽器里直接測,三款模型都可用,不需要寫代碼。
想接入自己的項目,官方提供了Codex prompt模板,一鍵把GPT-Realtime-2接進現有App或新建項目。
成本方面,Whisper最便宜,一小時連續轉寫約1美元;Translate中等,一小時約2美元。
Realtime-2按token計費,實際成本取決于對話量和推理強度,和上一代價格持平。
感興趣的友友們,快去體驗起來吧~
Playground地址:
https://platform.openai.com/login?next=%2Faudio%2Frealtime
[1]https://x.com/OpenAI/status/2052438194625593804
[2]https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
[3]https://x.com/jxnlco/status/2052449634266812744
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.