近日,全球語音、聲學(xué)頂級會議ICASSP 2022公布了論文入選名單,網(wǎng)易互娛AI Lab共3篇學(xué)術(shù)論文被接收,并受邀于會議上面向?qū)W術(shù)和工業(yè)界進行研究報告。ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學(xué)、語音與信號處理會議,是IEEE主辦的全世界最大的,也是最全面的信號處理及其應(yīng)用方面的頂級會議,在國際上享有盛譽并具有廣泛的學(xué)術(shù)影響力。
此次論文入選是網(wǎng)易互娛AI Lab繼INTERSPEECH 2020國際聲紋識別冠軍、第六屆OLR東方識別國際競賽雙賽道冠軍和被INTERSPEECH 2020&2021收錄3篇論文后在語音信號處理領(lǐng)域又一新的里程碑。在取得理論研究突破的同時,網(wǎng)易互娛AI Lab研發(fā)的語音合成、語音識別、語音控制以及語音變聲&轉(zhuǎn)換技術(shù)等相關(guān)技術(shù),已成功在《夢幻西游》、《哈利波特:魔法覺醒》、《陰陽師》、《天下3》、《狼人殺》等多個游戲項目中落地,助力豐富游戲玩法并提升游戲體驗。
收錄論文概述
1、DATA AUGMENTATION FOR LONG-TAILED AND IMBALANCED POLYPHONE DISAMBIGUATION IN MANDARIN
業(yè)務(wù)應(yīng)用:提升語音合成中發(fā)音的正確性。
多音字是中文的常見現(xiàn)象,為了正確合成文字發(fā)音,多音字消歧是必不可少的重要步驟。但在真實數(shù)據(jù)中,多音字讀音出現(xiàn)的頻率呈現(xiàn)明顯的長尾分布和非平衡現(xiàn)象(如上圖所示),導(dǎo)致多音字消歧模型在長尾數(shù)據(jù)上錯誤率通常較高而成為一件十分具有挑戰(zhàn)性的工作。
算法設(shè)計如下圖所示:
在論文中,我們提出了一種基于BERT預(yù)訓(xùn)練模型對多音字?jǐn)?shù)據(jù)進行增強的方法,通過mask原句并用BERT預(yù)測替換的方式,可以生成新的增強數(shù)據(jù)。結(jié)合有權(quán)重采樣(weighted sampling),可以得到類別平衡的數(shù)據(jù),從而解決多音字長尾問題。同時,論文還提出了一種基于BERT的增強數(shù)據(jù)過濾策略,減少反復(fù)增強可能帶來的數(shù)據(jù)噪聲問題。最終的算法方案在不平衡讀音和長尾讀音的場景下相比基線有12%以上的提升。
2、DGC-VECTOR: A NEW SPEAKER EMBEDDING FOR ZERO-SHOT VOICE CONVERSION
業(yè)務(wù)應(yīng)用:提升零資源音色轉(zhuǎn)換的說話人相似度,為公司內(nèi)部提供音色轉(zhuǎn)換技術(shù)支持。
算法設(shè)計如下圖所示:
該論文結(jié)合了預(yù)訓(xùn)練的說話人識別模型(Pre-trained ASV Model), 語音風(fēng)格建模中的GSTs (Global Style Tokens)和說話人分類器,提出了一種適用于零資源語音音色轉(zhuǎn)換的說話人向量。實驗證明, 該方法對比常用的說話人表征向量D-vector在音色轉(zhuǎn)化后的說話人相似度方面有5%的提升,在跨說話人轉(zhuǎn)換的場景下提升達到12%。
3、IMPROVE FEW-SHOT VOICE CLONING USING MULTI-MODAL LEARNING
業(yè)務(wù)應(yīng)用:提升少量數(shù)據(jù)音色克隆效果,為公司內(nèi)部提供音色克隆技術(shù)支持。
算法設(shè)計如下圖所示:
該論文提出了使用多模態(tài),多任務(wù)學(xué)習(xí)提升在少量數(shù)據(jù)的場景下音色克隆的效果。論文提出的模型主要包括兩個模塊:
。1)基于VQ-VAE(Vector-Quantized Variational Auto-encoder)的無監(jiān)督語音表征模塊
。2)基于Tacotron 生成語音波形的模塊
實驗證明,在少量數(shù)據(jù)的音色克隆場景下,該模型融合了語音和文本兩個模態(tài),對比單一模態(tài)的模型在語音合成和語音音色轉(zhuǎn)換中的自然度和說話人相似度上都有顯著的提升。另外,該模型也同時支持語音合成(Text-to-speech)和語音音色轉(zhuǎn)換(Voice Conversion)兩個任務(wù),能夠適用于更多的應(yīng)用場景,減少實際落地的工作量。
【免責(zé)聲明】本文僅代表合作供稿方觀點,不代表和訊網(wǎng)立場。投資者據(jù)此操作,風(fēng)險請自擔(dān)。
最新評論