午夜不卡视频在线观看_国产精品二区av_国产小黄片视频在线免费观看_日本一个人在线观看_亚洲国产三级免费观看_韩日人妻精品一区二区三区_环太平洋免费观看免费_欧美成人精品不卡在线观看

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

2022-02-18 18:58:08 和訊 

  近日,全球語音、聲學(xué)頂級會議ICASSP 2022公布了論文入選名單,網(wǎng)易互娛AI Lab共3篇學(xué)術(shù)論文被接收,并受邀于會議上面向?qū)W術(shù)和工業(yè)界進行研究報告。ICASSP(International Conference on Acoustics, Speech and Signal Processing)即國際聲學(xué)、語音與信號處理會議,是IEEE主辦的全世界最大的,也是最全面的信號處理及其應(yīng)用方面的頂級會議,在國際上享有盛譽并具有廣泛的學(xué)術(shù)影響力。 

  此次論文入選是網(wǎng)易互娛AI Lab繼INTERSPEECH 2020國際聲紋識別冠軍、第六屆OLR東方識別國際競賽雙賽道冠軍和被INTERSPEECH 2020&2021收錄3篇論文后在語音信號處理領(lǐng)域又一新的里程碑。在取得理論研究突破的同時,網(wǎng)易互娛AI Lab研發(fā)的語音合成、語音識別、語音控制以及語音變聲&轉(zhuǎn)換技術(shù)等相關(guān)技術(shù),已成功在《夢幻西游》、《哈利波特:魔法覺醒》、《陰陽師》、《天下3》、《狼人殺》等多個游戲項目中落地,助力豐富游戲玩法并提升游戲體驗。

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

  收錄論文概述

  1、DATA AUGMENTATION FOR LONG-TAILED AND IMBALANCED POLYPHONE DISAMBIGUATION IN MANDARIN

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

  業(yè)務(wù)應(yīng)用:提升語音合成中發(fā)音的正確性。

   

  多音字是中文的常見現(xiàn)象,為了正確合成文字發(fā)音,多音字消歧是必不可少的重要步驟。但在真實數(shù)據(jù)中,多音字讀音出現(xiàn)的頻率呈現(xiàn)明顯的長尾分布和非平衡現(xiàn)象(如上圖所示),導(dǎo)致多音字消歧模型在長尾數(shù)據(jù)上錯誤率通常較高而成為一件十分具有挑戰(zhàn)性的工作。

  算法設(shè)計如下圖所示:

   

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

  在論文中,我們提出了一種基于BERT預(yù)訓(xùn)練模型對多音字?jǐn)?shù)據(jù)進行增強的方法,通過mask原句并用BERT預(yù)測替換的方式,可以生成新的增強數(shù)據(jù)。結(jié)合有權(quán)重采樣(weighted sampling),可以得到類別平衡的數(shù)據(jù),從而解決多音字長尾問題。同時,論文還提出了一種基于BERT的增強數(shù)據(jù)過濾策略,減少反復(fù)增強可能帶來的數(shù)據(jù)噪聲問題。最終的算法方案在不平衡讀音和長尾讀音的場景下相比基線有12%以上的提升。

  2、DGC-VECTOR: A NEW SPEAKER EMBEDDING FOR ZERO-SHOT VOICE CONVERSION

  業(yè)務(wù)應(yīng)用:提升零資源音色轉(zhuǎn)換的說話人相似度,為公司內(nèi)部提供音色轉(zhuǎn)換技術(shù)支持。

  算法設(shè)計如下圖所示:

   

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

  該論文結(jié)合了預(yù)訓(xùn)練的說話人識別模型(Pre-trained ASV Model), 語音風(fēng)格建模中的GSTs (Global Style Tokens)和說話人分類器,提出了一種適用于零資源語音音色轉(zhuǎn)換的說話人向量。實驗證明, 該方法對比常用的說話人表征向量D-vector在音色轉(zhuǎn)化后的說話人相似度方面有5%的提升,在跨說話人轉(zhuǎn)換的場景下提升達到12%。

  3、IMPROVE FEW-SHOT VOICE CLONING USING MULTI-MODAL LEARNING

  業(yè)務(wù)應(yīng)用:提升少量數(shù)據(jù)音色克隆效果,為公司內(nèi)部提供音色克隆技術(shù)支持。

  算法設(shè)計如下圖所示:

   

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

  該論文提出了使用多模態(tài),多任務(wù)學(xué)習(xí)提升在少量數(shù)據(jù)的場景下音色克隆的效果。論文提出的模型主要包括兩個模塊:

 。1)基于VQ-VAE(Vector-Quantized Variational Auto-encoder)的無監(jiān)督語音表征模塊

 。2)基于Tacotron 生成語音波形的模塊

  實驗證明,在少量數(shù)據(jù)的音色克隆場景下,該模型融合了語音和文本兩個模態(tài),對比單一模態(tài)的模型在語音合成和語音音色轉(zhuǎn)換中的自然度和說話人相似度上都有顯著的提升。另外,該模型也同時支持語音合成(Text-to-speech)和語音音色轉(zhuǎn)換(Voice Conversion)兩個任務(wù),能夠適用于更多的應(yīng)用場景,減少實際落地的工作量。

  

(責(zé)任編輯:岳權(quán)利 HN152)

   【免責(zé)聲明】本文僅代表合作供稿方觀點,不代表和訊網(wǎng)立場。投資者據(jù)此操作,風(fēng)險請自擔(dān)。

看全文
寫評論已有條評論跟帖用戶自律公約
提 交還可輸入500

最新評論

查看剩下100條評論

熱門閱讀

    和訊特稿

      推薦閱讀

        和訊熱銷金融證券產(chǎn)品

        莱芜市| 龙里县| 沐川县| 洪泽县| 陵川县| 米易县| 伽师县| 宣武区| 永兴县| 兴和县| 防城港市| 民丰县| 子长县| 巴楚县| 扎兰屯市| 台东县| 夹江县| 乌拉特后旗| 英德市| 乐业县| 绥棱县| 金塔县| 乡城县| 凉山| 社会| 禹州市| 和政县| 邢台市| 南丰县| 宿州市| 高邑县| 宣化县| 那曲县| 宁乡县| 仙居县| 上栗县| 芷江| 观塘区| 句容市| 大兴区| 仁怀市|