OpenAI剛剛發(fā)布了三款實(shí)時(shí)語(yǔ)音模型,稱(chēng)它們將"為開(kāi)發(fā)者解鎖全新類(lèi)別的語(yǔ)音應(yīng)用"。三款模型各有專(zhuān)攻,分別面向推理、翻譯和實(shí)時(shí)轉(zhuǎn)寫(xiě)三個(gè)場(chǎng)景。
第一款是GPT-Realtime-2。OpenAI將其定位為GPT-5級(jí)別的語(yǔ)音推理模型,專(zhuān)為實(shí)時(shí)對(duì)話(huà)設(shè)計(jì)。官方描述是:模型在推理用戶(hù)請(qǐng)求的同時(shí)保持對(duì)話(huà)流暢,可以調(diào)用工具、處理糾正或打斷,并以符合當(dāng)下情境的方式回應(yīng)。簡(jiǎn)單說(shuō),它能在"思考"的同時(shí)不冷場(chǎng)。
![]()
第二款是翻譯模型。支持70種輸入語(yǔ)言和13種輸出語(yǔ)言。這個(gè)數(shù)字對(duì)比很鮮明——輸入端覆蓋全球主要語(yǔ)種,輸出端則聚焦于使用頻率最高的語(yǔ)言。對(duì)開(kāi)發(fā)者來(lái)說(shuō),這意味著可以用一套接口覆蓋絕大多數(shù)跨語(yǔ)言場(chǎng)景。
第三款是GPT-Realtime-Whisper,主打低延遲流式語(yǔ)音轉(zhuǎn)文字。OpenAI強(qiáng)調(diào)它"隨說(shuō)隨轉(zhuǎn)",讓實(shí)時(shí)產(chǎn)品感覺(jué)更快、更自然——從即時(shí)出現(xiàn)的字幕,到跟得上對(duì)話(huà)節(jié)奏的會(huì)議記錄。
三款模型均已接入OpenAI的Realtime API。定價(jià)方面:GPT-Realtime-2為每分鐘0.08美元,翻譯模型每分鐘0.04美元,轉(zhuǎn)寫(xiě)模型每分鐘0.02美元。開(kāi)發(fā)者現(xiàn)在可以在Playground中測(cè)試,有Codex的用戶(hù)也可以直接通過(guò)提示詞將GPT-Realtime-2集成到現(xiàn)有應(yīng)用。
這次發(fā)布的一個(gè)信號(hào)是:OpenAI正在把語(yǔ)音從"功能"變成"基礎(chǔ)設(shè)施"。推理、翻譯、轉(zhuǎn)寫(xiě)——這三個(gè)能力覆蓋了語(yǔ)音交互的核心鏈條。對(duì)開(kāi)發(fā)者而言,組合空間很大:一個(gè)客服機(jī)器人可以同時(shí)聽(tīng)懂、思考、用用戶(hù)母語(yǔ)回應(yīng);一個(gè)會(huì)議工具可以邊錄邊出紀(jì)要,還能實(shí)時(shí)翻譯成多國(guó)語(yǔ)言。
不過(guò)定價(jià)也劃出了門(mén)檻。以GPT-Realtime-2為例,每分鐘0.08美元意味著每小時(shí)4.8美元。對(duì)C端小應(yīng)用不算便宜,但對(duì)B端場(chǎng)景——比如替代人工客服或同傳——這個(gè)成本結(jié)構(gòu)有競(jìng)爭(zhēng)力。關(guān)鍵看開(kāi)發(fā)者能不能找到足夠高的價(jià)值錨點(diǎn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.