來源:IT之家
OpenAI 發(fā)布三款實(shí)時(shí)語音模型,分別針對(duì)推理、翻譯和轉(zhuǎn)錄場景,集成于 Realtime API 供開發(fā)者調(diào)用。這三款模型為實(shí)時(shí)語音應(yīng)用提供底層技術(shù)支撐,目標(biāo)解決語音交互中的延遲、打斷處理和多語言支持難題。
GPT-Realtime-2 專為實(shí)時(shí)交互設(shè)計(jì),是首款具備 GPT-5 級(jí)推理能力的語音模型。它在保持對(duì)話自然流暢的前提下,能在對(duì)話過程中進(jìn)行推理、調(diào)用工具,并處理用戶的打斷或糾正。這意味著開發(fā)者可以構(gòu)建更復(fù)雜的語音助手,并能執(zhí)行多步驟任務(wù)。
定價(jià)方面,GPT-Realtime-2 音頻輸入定價(jià)為每百萬 Token 費(fèi)用 32 美元(IT之家注:現(xiàn)匯率約合 218.1 元人民幣),輸出為 64 美元(現(xiàn)匯率約合 436.2 元人民幣),緩存輸入僅需 0.4 美元。
GPT-Realtime-Translate 支持 70 種輸入語言轉(zhuǎn) 13 種輸出語言,翻譯速度與說話者同步,適用于跨國會(huì)議或?qū)崟r(shí)溝通場景。
GPT-Realtime-Whisper 則專注于低延遲流式轉(zhuǎn)錄,音頻隨說隨轉(zhuǎn),讓實(shí)時(shí)字幕和會(huì)議記錄能跟上對(duì)話節(jié)奏,減少等待時(shí)間。翻譯和轉(zhuǎn)錄模型按分鐘計(jì)費(fèi),分別為每分鐘 0.034 美元和 0.017 美元。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.