5月8日消息,OpenAI剛剛發(fā)布了三款全新的實(shí)時語音模型,稱其將“為開發(fā)者開啟語音應(yīng)用的新紀(jì)元”。每款新的語音智能模型都各具特色,適用于不同的用途。
開發(fā)者可以利用 OpenAI 的 3 個全新語音模型構(gòu)建全新的應(yīng)用體驗(yàn)。
OpenAI 推出了三款新的語音模型,分別用于推理、翻譯和轉(zhuǎn)錄等不同用途。
以下是該公司今天發(fā)布的公告:
GPT-Realtime-2是我們第一個具有 GPT-5 級推理能力的語音模型,可以處理更復(fù)雜的請求并自然地推進(jìn)對話。
GPT-實(shí)時翻譯,一種新的實(shí)時翻譯模型,可將 70 多種輸入語言的語音翻譯成 13 種輸出語言,同時保持與說話者語速同步。
GPT-Realtime-Whisper是一款全新的流式語音轉(zhuǎn)文本工具,可在說話者說話的同時實(shí)時轉(zhuǎn)錄語音。
OpenAI 更詳細(xì)地解釋了 GPT-5 級語音模型 GPT-Realtime-2 及其推理功能的新特性:
GPT-Realtime-2 專為實(shí)時語音交互而構(gòu)建,該模型能夠保持對話流暢進(jìn)行,同時推理請求、調(diào)用工具、處理更正或中斷,并以適合當(dāng)下情況的方式做出回應(yīng)。
該公司表示,與此同時,新的翻譯語音模型支持“70 種輸入語言和 13 種輸出語言”。
最后,還有實(shí)時轉(zhuǎn)錄模型:
GPT-Realtime-Whisper 是一種專為低延遲語音轉(zhuǎn)文本而構(gòu)建的新型流式轉(zhuǎn)錄模型。它能在人們說話的同時轉(zhuǎn)錄音頻,從而使實(shí)時產(chǎn)品感覺更快、響應(yīng)更靈敏、更自然——從即時顯示的字幕到與對話同步的會議記錄。
OpenAI表示,所有三種新的語音模型都包含在其實(shí)時API中,定價如下:
GPT-Realtime-2 的定價為每百萬個音頻輸入token 32 美元(緩存輸入token 0.40 美元),每百萬個音頻輸出token 64 美元。
GPT-實(shí)時翻譯的定價為每分鐘0.034美元。
GPT-Realtime-Whisper 的定價為每分鐘 0.017 美元。(鞭牛士、AI普瑞斯編譯)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.