品玩5月6日訊,據(jù) MarkteChpost 報道,Inworld AI正式發(fā)布語音模型Realtime TTS-2,通過閉環(huán)系統(tǒng)架構(gòu)革新語音交互體驗(yàn)。該模型突破傳統(tǒng)文本轉(zhuǎn)語音模式,可實(shí)時處理對話音頻,感知用戶語調(diào)、節(jié)奏及情感狀態(tài),實(shí)現(xiàn)更自然的擬人化交流。
TTS-2集成四大核心功能:支持開發(fā)者通過自然語言提示精準(zhǔn)調(diào)控語音表達(dá);基于閉環(huán)架構(gòu)實(shí)現(xiàn)對話語境感知,自動延續(xù)情感與語調(diào);提供跨語言支持,同一聲音身份可無縫切換100多種語言;創(chuàng)新“高級語音設(shè)計”功能,僅需文本描述即可生成可復(fù)用語音,無需音頻樣本。
技術(shù)層面,模型通過單Websocket連接整合Realtime STT、路由器及TTS層,確保200毫秒內(nèi)響應(yīng)。其生成的語音包含自然停頓、語氣詞等擬人化特征,支持語音克隆,適配多場景應(yīng)用。
此次發(fā)布標(biāo)志著Inworld AI從音質(zhì)競爭轉(zhuǎn)向行為層創(chuàng)新,Realtime TTS-2在Artificial Analysis Speech Arena中已位列榜首,展現(xiàn)其技術(shù)領(lǐng)先性。該產(chǎn)品將助力AI交互從機(jī)械對話邁向更具情感理解力的“類人溝通”時代。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.