ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學(xué)、語音與信號處理會議,是IEEE主辦的全世界最大的,也是最全面的信號處理及其應(yīng)用方面的頂級會議,在國際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。
近日,全球語音、聲學(xué)頂級會議ICASSP 2023公布了論文入選名單,網(wǎng)易互娛AI Lab一篇學(xué)術(shù)論文被接收,概述如下。
論文標(biāo)題:NSV-TTS: NON-SPEECH VOCALIZATION MODELING AND TRANSFER IN EMOTIONAL TEXT-TO-SPEECH
作者:Haitong Zhang,Xinyuan Yu, Yue Lin
業(yè)務(wù)應(yīng)用:合成情感語氣詞,提升情感語音合成的擬人度。
近年來,文本轉(zhuǎn)語音的合成技術(shù)已經(jīng)有顯著的發(fā)展,合成的語音已經(jīng)可以有不同情感。但是目前主要的應(yīng)用和研究還是集中在文字上,忽略了非語音化的發(fā)聲(Non-speech Vocalization,以下簡稱NSV),比如哭,笑,咳嗽等聲音。這些NSV有強(qiáng)化情感表達(dá)的作用,使得語音更具擬人度。針對此問題,該論文提出了一個情感語音合成的模型(叫做NSV-TTS),能夠?qū)SV進(jìn)行建模和零樣本遷移。最終,我們的實(shí)驗(yàn)表明:引入自監(jiān)督的語言單元進(jìn)行建模不但不會影響原本情感語音合成的整體效果,還能夠有效地實(shí)現(xiàn)零樣本NSV遷移。
模型設(shè)計(jì)如下圖所示:
NSV的建模的困難在于:NSV(比如哭和笑)都是夾雜在其它語音中,傳統(tǒng)的建模需要大量人工標(biāo)注;零樣本遷移是指:使用沒有錄制過NSV聲優(yōu)的聲音來合成NSV,該任務(wù)本身也極具挑戰(zhàn)性。對此,我們提出了以下創(chuàng)新來解決這兩個難點(diǎn)。
創(chuàng)新1:該模型采用了自監(jiān)督學(xué)習(xí)的模型HuBERT對語音進(jìn)行自動標(biāo)注。 使用這種自監(jiān)督的語言單元能有效解決標(biāo)注的困難,同時,因?yàn)檫@種自監(jiān)督的語言單元比音素的顆粒度更細(xì),有益于實(shí)現(xiàn)零樣本NSV的遷移。
創(chuàng)新2:在模型訓(xùn)練階段,我們使用音素序列或者自監(jiān)督的語言單元序列作為建模單元,然而在測試階段,我們需要使用自監(jiān)督的語言單元和音素的混合序列,因此會產(chǎn)生訓(xùn)練和測試不匹配的問題。為了減少該問題帶來的負(fù)面影響,我們提出了單元混合(token mixing)和動態(tài)隨機(jī)掩碼(dynamic random mask)的機(jī)制,通過在訓(xùn)練的時候動態(tài)對部分語音進(jìn)行掩碼,再對該部分語音用對應(yīng)自監(jiān)督的語言單元表示,其余部分使用音素表示。這樣,我們就可以使得訓(xùn)練階段和測試階段的建模序列變成一致了。該部分算法的偽代碼如下圖:
網(wǎng)易互娛AI Lab成立于2017年,隸屬于網(wǎng)易互動娛樂事業(yè)群,是游戲行業(yè)領(lǐng)先的人工智能實(shí)驗(yàn)室。AI Lab所提供的人工智能服務(wù)包括計(jì)算機(jī)視覺、自然語言處理、語音信號處理、游戲AI多個方面。目前技術(shù)已應(yīng)用于網(wǎng)易互娛旗下多款熱門游戲,如《夢幻西游》、《哈利波特:魔法覺醒》、《陰陽師》、《大話西游》、《荒野行動》等等。
【免責(zé)聲明】本文僅代表第三方觀點(diǎn),不代表和訊網(wǎng)立場。投資者據(jù)此操作,風(fēng)險(xiǎn)請自擔(dān)。
最新評論