PChome 5月7日消息,小米技術(shù)官微官宣,小米AI實(shí)驗(yàn)室新一代Kaldi團(tuán)隊(duì)開源了OmniVoice多語言語音克隆TTS模型,該模型以其極簡架構(gòu)和超強(qiáng)性能,首次實(shí)現(xiàn)了對超過600種語言的語音克隆支持,打破了多語言語音合成的語種局限。
![]()
據(jù)悉,OmniVoice采用創(chuàng)新的雙向Transformer架構(gòu),僅用一個(gè)網(wǎng)絡(luò)直接實(shí)現(xiàn)文本到語音的轉(zhuǎn)換,是目前最簡單的非自回歸TTS模型之一。盡管架構(gòu)極簡,但其性能卻超越預(yù)期。在中英文測試中,OmniVoice的語音合成質(zhì)量優(yōu)于當(dāng)前主流模型,訓(xùn)練和推理速度也極具優(yōu)勢,一天可完成10萬小時(shí)訓(xùn)練,推理速度可達(dá)40倍實(shí)時(shí)。
![]()
該模型最大的亮點(diǎn)在于其強(qiáng)大的多語言能力。基于50個(gè)開源語音數(shù)據(jù)集構(gòu)建的訓(xùn)練集涵蓋646種語種,總時(shí)長58萬小時(shí)。通過低資源語種動態(tài)上采樣訓(xùn)練策略,OmniVoice即使在訓(xùn)練數(shù)據(jù)不足10小時(shí)的小語種上也能實(shí)現(xiàn)高質(zhì)量合成。在24種語言的測試中,其語音相似度和可懂度均超越多款商用系統(tǒng);在102種語言的測試中,其語音可懂度甚至逼近真實(shí)語音。
![]()
OmniVoice的另一大特色是跨語言克隆能力,用戶只需提供一種語言的參考音頻,即可生成其他語言的語音,真正實(shí)現(xiàn)了“說一種語言,通萬國語言”。此外,模型還支持自定義音色設(shè)計(jì)、帶噪?yún)⒖家纛l適配、豐富語氣表達(dá)和發(fā)音精準(zhǔn)糾正等多維度可控功能,極大提升了實(shí)用性和靈活性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.