網易首頁 > 網易號 > 正文申請入駐

AI有嘴了！OpenAI連發三語音模型

2026-05-08 12:09:42　來源: 字母榜

北京舉報

分享至

昨天凌晨，OpenAI發布了三款音頻模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

OpenAI官網的表述是，新模型可以讓開發者構建能在用戶說話時“推理、翻譯和轉寫”的實時語音產品。三款模型已經開放給開發者測試。

這次更新的重點在于三款模型不同場景分工。

GPT-Realtime-2面向實時語音Agent場景，它是OpenAI首個具備“GPT-5級推理”的語音模型，可以處理復雜請求，調用工具，處理中途打斷，并在更長語音會話中維持上下文。

GPT-Realtime-Translate面向實時語音翻譯場景，支持70多種輸入語言到13種輸出語言。

GPT-Realtime-Whisper面向實時語音轉寫，可以在人說話時生成文本，用于字幕、會議記錄和工作流更新。

價格也同步公布。GPT-Realtime-2按token計費，音頻輸入起價為32美元/百萬token，音頻輸出為64美元/百萬token；GPT-Realtime-Translate按分鐘計費，價格為0.034美元/分鐘；GPT-Realtime-Whisper同樣按分鐘計費，價格為0.017美元/分鐘。

相關報道顯示，一些企業用戶包括Zillow、Priceline和德國電信在內的知名廠商已經在測試這些模型。

這是OpenAI過去一年語音路線的一次延伸。

2024年，OpenAI先把ChatGPT高級語音模式背后的低延遲語音能力開放給開發者；2025年8月，OpenAI推出首個正式版Gpt-Realtime，開始面向生產級語音Agent。

今年2月，Gpt-Realtime-1.5成為上一代主力模型，用于語音Agent和客服場景。再到今天的2.0版本的三大模型矩陣，這更像Realtime產品線從體驗功能走向企業API的一次版本升級。

從對話走向執行

先來看GPT-Realtime-2，按照OpenAI官方的說法，這是第一款具備“GPT-5級推理”的語音模型。這個模型被設計用于處理復雜請求、調用工具、處理中斷，并在更長的語音會話里保持上下文。

這些能力對應的是語音Agent落地時最常見的問題。

GPT-Realtime-2把上下文窗口從32K提升到128K。這個參數對長會話場景有直接意義。比如一個用戶想要針對某套房產做咨詢、或者想要改簽機票，這些場景都可能包含大量條件和多輪確認。

上下文窗口擴大后，模型可以在更長的實時對話里保留前面出現過的限制、偏好和業務信息。

工具調用也是這次更新里的關鍵詞。RealtimeAPI可以用于構建會調用工具的語音體驗。應用可以保持實時會話連接，連續發送音頻，接收模型事件，更新會話狀態，并把外部系統返回的結果再交給模型繼續回應。

美國房地產信息查詢網站Zillow，成為了OpenAI官方的首批企業案例。

OpenAI在官網中提到，Zillow正在用GPT-Realtime-2構建可以理解住房條件并安排看房的語音助手。Zillow方面表示，在最困難的對抗性測試中，經過prompt優化后，電話任務成功率從69%提升到95%，FairHousing相關合規表現也更穩定。

Fair Housing指美國住房交易中的反歧視合規要求，房產平臺不能在買賣、租賃、貸款或經紀服務中，基于種族、宗教、性別、殘障、家庭狀況、國籍等因素區別對待用戶。

從“能說”到“會說”，這可能是GPT-Realtime-2給予行業的最大震撼。

Booking子公司、知名旅行優惠平臺Priceline，則代表另一類語音模型的落地場景。

據了解，Priceline也在測試GPT-Realtime-2系列。旅游預訂的鏈條很長，用戶可能要查航班、訂酒店、調整日期、處理延誤、比較價格，還可能在境外需要翻譯。語音Agent如果能穩定接入后臺系統，就有機會把“問答”推進到“辦事”。

OpenAI提到的另一個已知客戶是德國電信。電信行業有大規模坐席、復雜套餐、故障處理、多語言服務和賬單解釋，也是語音模型落地的天然場景。

GPT-Realtime-2還有一個細節是可調推理強度。

OpenAI開發者文檔提到，GPT-Realtime-2把推理能力帶入語音到語音工作流。多數生產場景可以先使用較低的推理強度，優先保證通話里的響應速度；遇到更復雜的客服、預訂、排障任務，再提高推理強度，用更多計算換取更完整的判斷。

這個細節很重要。語音交互比文字聊天更怕停頓。用戶在電話里等待一兩秒，會明顯感到卡頓。推理越強，延遲壓力越大。在性能和響應的平衡上，不同的開發者在這個問題上會有一定取舍。。

官方也給出了一些測試數據。OpenAI稱，GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%，在Audio MultiChallenge上高13.8%。這兩個指標用于衡量模型在音頻輸入、多輪語音、復雜指令和上下文整合方面的能力。

第二款模型是GPT-Realtime-Translate。

按OpenAI面向開發者的示例說明，GPT-Realtime-Translate主打實時語音到語音翻譯，適合廣播、直播、電話和視頻對話。它會自動識別輸入語言，并輸出翻譯后的語音和文本。開發者只需要設定目標語言。

這個模型支持70多種輸入語言到13種輸出語言。OpenAI稱，它可以在說話人講話時跟上節奏。開發者文檔還提到，傳統語音翻譯常常要求說話人停頓，系統等一句話結束后再翻譯；而GPT-Realtime-Translate更接近連續口譯的形態。

OpenAI把它的場景分成兩類。

一類是廣播式翻譯，比如直播、網絡研討會、講座、財報電話會和大型會議演講。另一類是對話式翻譯，比如呼叫中心、視頻通話和電話工作流。這兩個類別基本覆蓋了企業最愿意付費的跨語言場景：客服、教育、國際會議、內容平臺、跨境銷售和企業培訓。

第三款模型是GPT-Realtime-Whisper。

GPT-Realtime-Whisper強調實時流式轉寫。它可以在說話人講話時生成字幕、會議記錄和工作流更新。相比起前兩個模型，Whisper的商業門檻最低。它的價格僅為0.017美元/分鐘。

三款模型放在一起看，OpenAI已經把實時音頻拆成了三個明確入口：GPT-Realtime-2處理語音Agent，GPT-Realtime-Translate處理跨語言溝通，GPT-Realtime-Whisper處理實時文本化。

三者的價格、延遲要求和客戶場景都不同，奧特曼想要在差異化路線上“通吃”語音AI市場。

TTS市場卷完“聲音質量”卷“實時”

這次發布還有一個很清楚的商業信號：OpenAI正在把語音AI能力，全面推向API市場和企業工作流。

除了OpenAI官方提到的Zillow、Priceline和德國電信三大測試客戶，更多公司也在把這批語音模型接進自己的產品。

比如視頻平臺Vimeo、企業知識管理工具Glean、客服軟件公司Intercom，以及面向企業語音Agent的BolnaAI，都出現在目前披露的相關案例中。

換句話說，GPT-Realtime系列已經成為了OpenAI的一個成熟的商業化版圖，客戶覆蓋內容平臺、企業辦公、客服系統和語音Agent創業公司等多類開發者。

OpenAI展示的是一組真實業務中的場景：AI在通話中理解需求、調用系統、翻譯語言，并把語音交互接進企業后臺。

而這一切，正好發生在語音AI市場繼續升溫的周期里。

過去兩年，語音AI賽道最受關注的公司之一是ElevenLabs。這家公司2022年成立，最早靠高度擬真的AI配音、聲音克隆、多語言配音和內容本地化出圈，后來又把產品往企業語音Agent延伸。今年2月，ElevenLabs宣布完成5億美元D輪融資，估值達到110億美元。

這一估值較2025年1月的33億美元大幅上升。公司稱，這筆資金將用于全球擴張，并繼續投入情感化對話模型、配音、轉寫和AI語音Agent等方向。

更近的動態是，ElevenLabs在近期披露，公司年化經常性收入已經超過5億美元，并公布了更多參與D輪融資的新投資方。

其中既包括貝萊德、惠靈頓管理等大型機構，也包括英偉達、賽富時創投、德國電信等產業方。甚至演員Jamie Foxx、Eva Longoria以及《魷魚游戲》創作者黃東赫等個人投資者，也出現在這輪投資名單中。

面對著日益增長的需求，語音AI已經不只是創作者的配音工具。影視、廣告、游戲、教育、企業培訓、無障礙服務、內容出海和電話Agent，都在消耗更自然、更便宜、更可控的機器聲音。

Deepgram代表另一種路線。

這家公司長期做語音識別基礎設施，客戶更多來自聯絡中心、會議、銷售、醫療、金融等高頻語音場景。近年，Deepgram開始補上文本轉語音和語音Agent接口，試圖打通語音模型的辦事場景。

Deepgram披露的信息顯示，旗下Aura-2文本轉語音面向實時語音應用，流式延遲低于200毫秒，并支持對地址、電話號碼、字母數字組合等結構化內容做更自然的朗讀。

它還把語音識別、語音合成、實時情緒分析、話題檢測和摘要能力，放進聯絡中心等企業場景。

Cartesia則主打低延遲和實時交互。

這家公司由前斯坦福AI實驗室成員創辦，技術標簽是狀態空間模型，主打更快、更低成本的實時多模態模型。

它的語音產品Sonic系列，核心賣點是低延遲文本轉語音。Cartesia的Sonic 3文檔稱，它是一個流式文本轉語音模型，強調高自然度、準確跟隨文本和低延遲；Sonic 3支持42種語言，也支持音量、語速和情緒控制。

在Cartesia官網上，可以看到這家公司把90毫秒低延遲作為實時對話體驗的賣點。

這些公司共同推動了TTS市場的變化。

早期TTS競爭主要看聲音像不像真人。之后，行業開始比多語言覆蓋、聲音克隆、情緒表達、版權授權和配音效率。

現在，語音Agent把要求抬高了。企業不只要一個好聽的聲音，還要完整鏈路：語音識別要準，首字延遲要低，大模型要能理解上下文，工具調用要穩定，語音合成要自然，翻譯要連續，轉寫還要能進入后續工作流。

一些行業材料也反映了這個趨勢。Deepgram在TTS對比文章中提到，面向語音Agent的文本轉語音，已經把“首段語音生成低于100毫秒”視為新的基線之一。

在行業內都在競相卷“實時”的背景下，OpenAI最大的優勢來自模型棧。

OpenAI可以把整個企業調用TTS的鏈路，放到同一個開發者平臺里。對開發者來說，少接幾個供應商，就少一些延遲、集成和運維成本。對企業來說，統一平臺也更容易做權限管理、日志留存、數據策略和安全審查。

不過，OpenAI想要通吃企業語音市場，也沒那么容易。

ElevenLabs已跑到110億美元估值、超過5億美元年化收入；Deepgram今年1月完成1.3億美元融資，估值13億美元，服務1300多家客戶；Cartesia也在2025年完成6400萬美元A輪融資，Sonic模型據稱已有1萬多客戶使用，并以90毫秒模型延遲、42種語言主打實時語音。

OpenAI有模型棧優勢，但語音市場并不缺少強勢玩家。

奧特曼對這次發布的公開表態很短。他在X上稱，GPT-Realtime-2進入API是“相當大的一步前進”，同時OpenAI還在繼續改進ChatGPT里的語音體驗。

只是從各大企業用戶爭相測試的情況來看，OpenAI的新一代語音模型，足以讓人期待他在接下來這一年的市場表現。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.