<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      TTS也要真人感!首個(gè)字級(jí)內(nèi)容、毫秒級(jí)停頓控制的語(yǔ)音合成系統(tǒng)

      0
      分享至


      新智元報(bào)道

      編輯:LRST

      【新智元導(dǎo)讀】語(yǔ)音合成這兩年發(fā)展迅速:把一段話順順當(dāng)當(dāng)?shù)啬钔辏呀?jīng)不算難事;難的是該慢的時(shí)候慢,該頓的時(shí)候頓,該強(qiáng)調(diào)的時(shí)候真能把重點(diǎn)托出來。

      語(yǔ)音合成這些年最明顯的進(jìn)展,是越來越會(huì)模擬真人輸出語(yǔ)音。

      自然度更高了,聲音更像真人了,零樣本克隆也越來越成熟了。可一旦要求模型別再只是平著往下讀,而是對(duì)一句話內(nèi)部的節(jié)奏做有選擇的安排,問題就暴露出來了。很多系統(tǒng)能做到整體變快、整體變慢,也能給整段話套一個(gè)風(fēng)格標(biāo)簽,但真到關(guān)鍵位置,往往還是一起變,很難做到只改重點(diǎn)區(qū)域。

      而產(chǎn)品場(chǎng)景里,用戶在意的常常就是只改重點(diǎn)區(qū)域。

      驗(yàn)證碼播報(bào)里,數(shù)字之間要不要刻意拉開;導(dǎo)航播報(bào)里,動(dòng)作信息要不要被單獨(dú)頂出來;教學(xué)糾音里,兩個(gè)容易混淆的詞能不能被故意說出差別;劇情化表達(dá)里,結(jié)尾那個(gè)關(guān)鍵詞之前能不能多留半拍。這些需求都不是靠整句降速就能混過去的。

      華南理工最新工作MAGIC-TTS首次把字級(jí)時(shí)長(zhǎng)和邊界停連同時(shí)拉到 token 級(jí),做成了局部可控的語(yǔ)音生成能力。


      論文鏈接: https://arxiv.org/abs/2604.21164v1

      代碼鏈接: https://github.com/yongaifadian1/MAGIC-TTS/tree/main

      演示鏈接: https://yongaifadian1.github.io/MAGIC-TTS/

      所以,這篇工作真正值得看的點(diǎn)在于它在把一件以前很難穩(wěn)定實(shí)現(xiàn)的能力往前推:讓模型不只是會(huì)發(fā)聲,還開始會(huì)安排一句話內(nèi)部的節(jié)奏,同時(shí)不犧牲合成質(zhì)量和克隆語(yǔ)音的相似程度。

      如果把MAGIC-TTS放回真實(shí)使用場(chǎng)景里看,它最先改動(dòng)的,其實(shí)是三類任務(wù)。

      第一類,是高辨識(shí)播報(bào)。

      這一類任務(wù)的核心不是更自然,而是更不容易聽錯(cuò)。論文里拿了驗(yàn)證碼播報(bào)做例子。作者先給整句內(nèi)容設(shè)置均勻時(shí)長(zhǎng),再刻意把中間分組的停頓拉開,最后進(jìn)一步把數(shù)字本身也放慢。這樣做的結(jié)果不是簡(jiǎn)單的整句慢下來,而是用戶先聽清分組,再聽清每個(gè)數(shù)字。換到產(chǎn)品里,這種處理顯然不只適用于驗(yàn)證碼,還適用于訂單號(hào)、取件碼、地址、藥品名這類高辨識(shí)內(nèi)容。

      地鐵播報(bào)也是同一路數(shù)。作者沒有讓整句一起拖慢,而是把站點(diǎn)出現(xiàn)前的停連做得更明顯,同時(shí)把真正需要乘客注意的站名壓得更重一些。對(duì)這類高實(shí)時(shí)任務(wù)來說,節(jié)奏是否準(zhǔn)確,很多時(shí)候比聲音是否足夠像真人更有價(jià)值。

      第二類,是教學(xué)和糾錯(cuò)。

      論文里給出的案例是英文近音詞糾正。作者通過縮短前一個(gè)詞、拉長(zhǎng)后一個(gè)詞,并在糾正關(guān)系出現(xiàn)前加入短暫停頓,讓兩者之間的差異不再糊成一團(tuán)。這個(gè)例子最關(guān)鍵的地方,不是能合成英文,而是模型開始能利用節(jié)奏本身去幫助區(qū)分語(yǔ)義關(guān)系。

      這類能力一旦成熟,對(duì)外語(yǔ)學(xué)習(xí)、兒童跟讀、口語(yǔ)訓(xùn)練會(huì)很直接。因?yàn)榻虒W(xué)場(chǎng)景需要的從來不是一臺(tái)平鋪直敘的朗讀器,而是一個(gè)能把差異做出來、把重點(diǎn)放出來的示范系統(tǒng)。

      第三類,是表達(dá)型語(yǔ)音。

      論文還展示了一個(gè)戲劇化場(chǎng)景:在句尾關(guān)鍵詞出現(xiàn)之前先留一小段空白,再把最后那個(gè)詞拉開。這個(gè)動(dòng)作非常小,但聽感會(huì)一下從把句子讀完變成把情緒送出來。也就是說,局部節(jié)奏控制影響的不只是信息清晰度,還會(huì)開始影響敘事張力和表現(xiàn)力。

      過去,這類處理通常被認(rèn)為屬于真人配音、導(dǎo)演調(diào)度或者后期剪輯的領(lǐng)地。現(xiàn)在,TTS 也開始往這個(gè)方向摸了。

      為什么這件事早就該有

      卻一直很難真正落地

      第一,整句控制和句內(nèi)控制,根本不是一回事。讓一整段話慢一點(diǎn),本質(zhì)上還是全局調(diào)節(jié);但讓某個(gè)詞多占幾十毫秒、讓某個(gè)邊界多留一段停頓,要求的是模型在局部位置精確地重新分配時(shí)間。

      第二,停頓和字時(shí)長(zhǎng)也不是同一種難度。停頓更接近邊界留白,內(nèi)容時(shí)長(zhǎng)則直接涉及 token 內(nèi)部的聲學(xué)展開。前者像在內(nèi)容之間插空,后者則是改內(nèi)容本身怎么展開。真正難啃的是后者。

      第三,局部控制越細(xì),對(duì)訓(xùn)練時(shí)的監(jiān)督邊界越苛刻。假如在訓(xùn)練中,一個(gè) token 的起止位置本來就不穩(wěn),那么后面在推理時(shí)不管是要拉長(zhǎng)它,還是要在它后面加停頓,都會(huì)變成一件漂浮不定的事。

      所以,這類問題真正卡住行業(yè)的,往往不是有沒有想法,而是能不能把它做成一個(gè)不會(huì)穩(wěn)定的,可以應(yīng)用在真實(shí)場(chǎng)景的模型。

      方法

      從方法上看,MAGIC-TTS 真正抓住的,是三個(gè)更底層的環(huán)節(jié)


      第一,是把一句話里的兩種時(shí)間因素拆開。

      這篇工作沒有再把節(jié)奏當(dāng)成一個(gè)模糊的整體感覺去學(xué),而是明確地區(qū)分每一個(gè)詞要占多久和每一個(gè)詞之后要停多久。前者對(duì)應(yīng) token 本身的展開長(zhǎng)度,后者對(duì)應(yīng)邊界停頓。把這兩件事拆開,等于承認(rèn)了一句自然語(yǔ)音的節(jié)奏,本來就不是一個(gè)總時(shí)長(zhǎng)數(shù)字能夠概括的。

      第二,是先把每個(gè)詞的邊界監(jiān)督校準(zhǔn)。

      論文里一個(gè)很關(guān)鍵的工程步驟,是先用 Stable-ts 在總時(shí)長(zhǎng)為3萬小時(shí)大規(guī)模語(yǔ)音上構(gòu)造 token 級(jí)時(shí)序標(biāo)簽進(jìn)行持續(xù)預(yù)訓(xùn)練,再用 Stable-ts 和 MFA 做交叉驗(yàn)證,篩掉不可靠樣本。最終留下來的高置信度子集總時(shí)長(zhǎng) 230.72 小時(shí),進(jìn)行精細(xì)指令微調(diào)。這個(gè)步驟決定了后面的控制是不是建在堅(jiān)實(shí)的基礎(chǔ)上。如果邊界不準(zhǔn),所有精細(xì)調(diào)節(jié)都會(huì)被噪聲吞掉。

      第三,是解決停頓控制會(huì)不會(huì)污染內(nèi)容控制。

      這篇工作的一個(gè)現(xiàn)實(shí)問題:模型為每個(gè)位置都編碼了內(nèi)容控制殘差和停頓殘差,但關(guān)鍵是,不是每個(gè)位置都應(yīng)該有停頓,對(duì)于自然語(yǔ)音,大多數(shù)時(shí)候句子內(nèi)的字都是黏連在一起發(fā)聲,因此很多位置的停頓殘差天然就該是 0。

      但是如果模型單純采用MLP去編碼停頓殘差,這會(huì)導(dǎo)致如果模型將這些不存在的停頓都編碼成有偏信號(hào),整句里就會(huì)不斷積累無意義干擾,最后把更難學(xué)的內(nèi)容時(shí)長(zhǎng)控制的影響削弱。論文里的零值校正,本質(zhì)上就是在處理這個(gè)問題:該沒有影響的時(shí)候,就盡量真的沒有影響。

      與此同時(shí),作者還專門做了缺失控制魯棒性訓(xùn)練。原因很現(xiàn)實(shí),用戶不可能每次都給整句配一套精細(xì)時(shí)序。如果一個(gè)系統(tǒng)只有在滿配控制條件下才表現(xiàn)好,那它就更像實(shí)驗(yàn)演示,而不是實(shí)際能力。把默認(rèn)合成和局部調(diào)節(jié)同時(shí)保住,才更接近真正可用的方向。

      最值得看的證據(jù),不只是會(huì)不會(huì)停,而是能不能穩(wěn)穩(wěn)地控字。

      這篇論文的數(shù)據(jù)結(jié)果里,最重要的其實(shí)不是停頓,而是內(nèi)容時(shí)長(zhǎng)。

      在顯式給出token級(jí)內(nèi)容時(shí)長(zhǎng)和停頓條件之后,每個(gè)字的內(nèi)容時(shí)長(zhǎng) MAE(平均絕對(duì)誤差) 從36.88ms 降到了10.56 ms,相關(guān)性從0.588提升到0.918。停頓方面,MAE從18.92 ms 降到8.32ms,相關(guān)性從0.283提升到0.793。

      為什么說內(nèi)容時(shí)長(zhǎng)更關(guān)鍵?因?yàn)闀?huì)停一下相對(duì)容易理解,也更容易被實(shí)現(xiàn)成邊界層面的動(dòng)作;但把這個(gè) token 本身說得更長(zhǎng)一點(diǎn)、又不把整句帶壞,難度明顯更高。也正因?yàn)槿绱耍瑑?nèi)容時(shí)長(zhǎng)指標(biāo)的大幅提升,比單純的停頓跟隨更能說明問題。

      應(yīng)用場(chǎng)景

      如果這條路線跑通,最先吃到紅利的那幾類產(chǎn)品

      最先受益的,還是那些聽錯(cuò)一個(gè)字都麻煩的場(chǎng)景。

      高辨識(shí)播報(bào)會(huì)是第一批,包括驗(yàn)證碼、訂單號(hào)、地址、藥品名、導(dǎo)航、車載播報(bào)。比起聲音不擬人,這些地方最怕的是信息沒聽清。過去很多系統(tǒng)只能靠整句放慢來保底,但那往往會(huì)犧牲效率,且對(duì)于重點(diǎn)的突出效果不是那么好;如果節(jié)奏能局部編排,系統(tǒng)就能把該重點(diǎn)聽的地方單獨(dú)拉出來。

      第二批會(huì)是教學(xué)糾音。兒童跟讀、外語(yǔ)學(xué)習(xí)、示范式朗讀,都更需要一個(gè)會(huì)示范差異的系統(tǒng),而不是一個(gè)把文本順著念完的系統(tǒng)。誰能把停連、重音、對(duì)比關(guān)系更清楚地演示出來,誰在這一類產(chǎn)品里就更有優(yōu)勢(shì)。

      再往后,是表達(dá)型語(yǔ)音。數(shù)字人、劇情化配音、音頻內(nèi)容生成、故事講述,這些方向?qū)植抗?jié)奏的要求更高,但一旦能力成熟,帶來的產(chǎn)品觀感提升也會(huì)更明顯。

      小結(jié)

      MAGIC-TTS的核心價(jià)值在于把語(yǔ)音合成從「把話念自然」推進(jìn)到「能精細(xì)安排句內(nèi)節(jié)奏」,如何同時(shí)控制 token 級(jí)字時(shí)長(zhǎng)和邊界停頓,讓現(xiàn)實(shí)應(yīng)用場(chǎng)景中的重點(diǎn)內(nèi)容被更清楚、更有表現(xiàn)力地說出來,是下一階段要重視的問題。

      參考資料:

      https://arxiv.org/abs/2604.21164

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      南京審計(jì)大學(xué):將依據(jù)調(diào)查結(jié)果,依規(guī)依紀(jì)依法嚴(yán)肅處置

      南京審計(jì)大學(xué):將依據(jù)調(diào)查結(jié)果,依規(guī)依紀(jì)依法嚴(yán)肅處置

      澎湃新聞
      2026-05-12 18:00:09
      《主角》直到小白鞋被玷污自殺,胡三元才知,黃正經(jīng)的色心有多重

      《主角》直到小白鞋被玷污自殺,胡三元才知,黃正經(jīng)的色心有多重

      樓蘭娛姐
      2026-05-12 11:13:26
      東契奇官方聲明:今夏將與前女友爭(zhēng)女兒撫養(yǎng)權(quán) 不會(huì)參加世預(yù)賽

      東契奇官方聲明:今夏將與前女友爭(zhēng)女兒撫養(yǎng)權(quán) 不會(huì)參加世預(yù)賽

      醉臥浮生
      2026-05-12 14:06:08
      殷桃的“飽滿”身材真饞人,一襲抹胸亮片裙氣質(zhì)驚艷,真不怕走光

      殷桃的“飽滿”身材真饞人,一襲抹胸亮片裙氣質(zhì)驚艷,真不怕走光

      蓓小西
      2026-05-12 09:52:19
      主動(dòng)投案,南昌軌道交通集團(tuán)原副總經(jīng)理凌相國(guó)接受審查調(diào)查

      主動(dòng)投案,南昌軌道交通集團(tuán)原副總經(jīng)理凌相國(guó)接受審查調(diào)查

      界面新聞
      2026-05-12 16:10:15
      文章生意開業(yè)越做越大,半個(gè)娛圈明星捧場(chǎng),當(dāng)年誰對(duì)誰錯(cuò)一目了然

      文章生意開業(yè)越做越大,半個(gè)娛圈明星捧場(chǎng),當(dāng)年誰對(duì)誰錯(cuò)一目了然

      東方不敗然多多
      2026-05-12 06:16:41
      謝暉現(xiàn)狀:重返上海申花,俄羅斯妻子風(fēng)韻猶存,兒女雙全財(cái)富自由

      謝暉現(xiàn)狀:重返上海申花,俄羅斯妻子風(fēng)韻猶存,兒女雙全財(cái)富自由

      梁岱愛玩車
      2026-05-03 18:54:17
      釋永信被一女子爆料:她們姐妹住少林寺3天,爭(zhēng)著往釋永信房間跑

      釋永信被一女子爆料:她們姐妹住少林寺3天,爭(zhēng)著往釋永信房間跑

      江山揮筆
      2026-03-23 15:40:31
      半決賽首組對(duì)決出爐!北京與上海強(qiáng)強(qiáng)對(duì)話,四大內(nèi)線上演巔峰對(duì)決

      半決賽首組對(duì)決出爐!北京與上海強(qiáng)強(qiáng)對(duì)話,四大內(nèi)線上演巔峰對(duì)決

      老葉評(píng)球
      2026-05-12 22:01:58
      你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

      你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

      夜深愛雜談
      2026-02-21 21:37:02
      誰都不敢相信,打了四年的俄烏戰(zhàn)爭(zhēng),居然會(huì)以這種方式停戰(zhàn)了!

      誰都不敢相信,打了四年的俄烏戰(zhàn)爭(zhēng),居然會(huì)以這種方式停戰(zhàn)了!

      別人都叫我阿腈
      2026-05-08 10:57:36
      廣東被淘汰采訪!杜鋒親承沒遺憾點(diǎn)11冠,再提年輕球員,奎因不甘

      廣東被淘汰采訪!杜鋒親承沒遺憾點(diǎn)11冠,再提年輕球員,奎因不甘

      籃球資訊達(dá)人
      2026-05-12 22:51:54
      特朗普訪華前,兩大鄰國(guó)突然對(duì)華出手,要切斷中國(guó)“經(jīng)濟(jì)命脈”?

      特朗普訪華前,兩大鄰國(guó)突然對(duì)華出手,要切斷中國(guó)“經(jīng)濟(jì)命脈”?

      阿策聊實(shí)事
      2026-05-12 21:53:34
      溥儀的文化程度到底是有多高?專家:其實(shí)他真實(shí)學(xué)歷讓你望塵莫及

      溥儀的文化程度到底是有多高?專家:其實(shí)他真實(shí)學(xué)歷讓你望塵莫及

      史之銘
      2026-05-12 20:27:44
      湖人犯愁了:詹姆斯等四名球員成自由身,是續(xù)約還是全部放棄?

      湖人犯愁了:詹姆斯等四名球員成自由身,是續(xù)約還是全部放棄?

      愛體育
      2026-05-12 22:05:57
      不是盟友,勝似盟友!以色列“激光盾牌”馳援阿聯(lián)酋

      不是盟友,勝似盟友!以色列“激光盾牌”馳援阿聯(lián)酋

      上觀新聞
      2026-05-12 15:48:11
      貴陽(yáng)女子1880元辦不限次數(shù)的瑜伽季卡,連上20多天課后被教練踢出群聊:天天來,你不累嗎?

      貴陽(yáng)女子1880元辦不限次數(shù)的瑜伽季卡,連上20多天課后被教練踢出群聊:天天來,你不累嗎?

      觀威海
      2026-05-11 20:46:40
      口碑反轉(zhuǎn)!王菲沒想到,負(fù)債累累的李亞鵬,如今卻讓自己“難堪”

      口碑反轉(zhuǎn)!王菲沒想到,負(fù)債累累的李亞鵬,如今卻讓自己“難堪”

      白面書誏
      2026-01-19 17:22:22
      21歲女子和“鴨子”纏綿后,嘲諷情人比不上鴨子,2018年被情夫殺

      21歲女子和“鴨子”纏綿后,嘲諷情人比不上鴨子,2018年被情夫殺

      漢史趣聞
      2026-05-12 11:14:45
      “到底是哪個(gè)天才想出的在北京種月季?”北京綠化帶,強(qiáng)得可怕!

      “到底是哪個(gè)天才想出的在北京種月季?”北京綠化帶,強(qiáng)得可怕!

      起喜電影
      2026-05-12 17:43:49
      2026-05-12 23:27:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      15194文章數(shù) 66863關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機(jī)甲,定價(jià)390萬元起

      頭條要聞

      新電動(dòng)車到手不足一月頻繁自動(dòng)鎖死 老人被摔傷五六次

      頭條要聞

      新電動(dòng)車到手不足一月頻繁自動(dòng)鎖死 老人被摔傷五六次

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進(jìn)了歐戰(zhàn)決賽

      娛樂要聞

      白鹿風(fēng)波升級(jí)!掉粉20萬評(píng)論區(qū)淪陷

      財(cái)經(jīng)要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      藝術(shù)
      家居
      房產(chǎn)
      健康
      軍事航空

      藝術(shù)要聞

      這位畫家的油畫美人讓人驚嘆不已!

      家居要聞

      極簡(jiǎn)主義下的居住場(chǎng)域與空間

      房產(chǎn)要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      干細(xì)胞能讓人“返老還童”嗎

      軍事要聞

      知情人士披露:美國(guó)或考慮恢復(fù)對(duì)伊朗軍事行動(dòng)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 宅宅午夜无码一区二区三区| 久久人妻乱| 亚洲夜夜性无码国产盗摄| 亚洲精品美女久久777777| 夜夜欢夜夜干| 精品无码一区二区三区在线视频| 无限A片| 欧美日本一区二区三区免费| 国产精品人成视频免费播放| 制服丝袜无码| 四虎永久精品免费视频| 无码天堂亚洲国产AV| 中文字幕人妻少妇久久| 国内露脸少妇精品视频 | 亚洲毛片αv无线播放一区| 亚洲av天堂综合网久久| 午夜亚洲一区| 国产av一区二区三区无码野战| 手机看片1024精品日韩| 任你躁在线精品免费| y1111111少妇无码| 成人无码视频在线观看大全| 国产黄拍| 国产白浆一区二区三区| 色综合色天天久久婷婷基地| 久久婷婷色综合老司机| 国产偷国产偷亚州清高app| 亚洲最大成人免费av| 欧美+日产+中文| 国产精品久久久久久久专区| 在线日本看片免费人成视久网| 亚洲人成色在线观看| 免费无码av一区二区波多野结衣| 熟女在线视频一区二区三区| 精品在免费线中文字幕久久| 久久综合结合久久很很很97色| A级毛片无码久久精品免费| 亚洲丁香婷婷久久一区二区| 含紧一点h边做边走动免费视频| 亚洲永久一区二区三区在线| 天天碰免费上传视频|