IT之家 5 月 8 日消息,OpenAI 發(fā)布三款實時語音模型,分別針對推理、翻譯和轉錄場景,集成于 Realtime API 供開發(fā)者調用。這三款模型為實時語音應用提供底層技術支撐,目標解決語音交互中的延遲、打斷處理和多語言支持難題。
GPT-Realtime-2 專為實時交互設計,是首款具備 GPT-5 級推理能力的語音模型。它在保持對話自然流暢的前提下,能在對話過程中進行推理、調用工具,并處理用戶的打斷或糾正。這意味著開發(fā)者可以構建更復雜的語音助手,并能執(zhí)行多步驟任務。
![]()
定價方面,GPT-Realtime-2 音頻輸入定價為每百萬 Token 費用 32 美元(IT之家注:現匯率約合 218.1 元人民幣),輸出為 64 美元(現匯率約合 436.2 元人民幣),緩存輸入僅需 0.4 美元。
GPT-Realtime-Translate 支持 70 種輸入語言轉 13 種輸出語言,翻譯速度與說話者同步,適用于跨國會議或實時溝通場景。
GPT-Realtime-Whisper 則專注于低延遲流式轉錄,音頻隨說隨轉,讓實時字幕和會議記錄能跟上對話節(jié)奏,減少等待時間。翻譯和轉錄模型按分鐘計費,分別為每分鐘 0.034 美元和 0.017 美元。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.