OpenAI 今日發布三款全新的實時語音模型,旨在為開發者「解鎖新一代語音應用形態」。這三款語音智能模型分別側重推理對話、實時翻譯和實時轉錄等不同場景需求。
根據OpenAI 公布的信息,新系列包括 GPTRealtime2、GPTRealtimeTranslate 和 GPTRealtimeWhisper 三個模型。其中,GPTRealtime2 被定位為首款具備 GPT5 級推理能力的語音模型,能夠更好地處理復雜請求,并以更自然的方式持續推進對話。官方介紹稱,該模型專為實時語音交互打造,在用戶提問或發出指令時,一邊進行推理、一邊保持對話連貫,同時還能調用工具、處理用戶打斷和更正,并根據當下情境作出更貼切的回應。
第二款模型GPTRealtimeTranslate 主打實時翻譯能力,可支持「70 多種輸入語言和 13 種輸出語言」,并在翻譯過程中盡量跟上說話者的語速。
第三款GPTRealtimeWhisper 則是一款實時流式語音轉寫模型,聚焦低延遲語音轉文本能力。
在接入方式與價格方面,OpenAI 稱三款新語音模型均已納入其 Realtime API 體系。GPTRealtime2 的定價為每 100 萬音頻輸入 Token 收費 32 美元(緩存輸入 Token 為 0.40 美元),每 100 萬音頻輸出 Token 收費 64 美元。GPTRealtimeTranslate 的價格為每分鐘 0.034 美元,而 GPTRealtimeWhisper 的價格為每分鐘 0.017 美元。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.