少妇人妻上班偷人精品视频,精品日韩一区二区三区免费视频,小黄片免费下载在线观看,一级视频免费看片,国产精品久久美女流白浆

　　近日，全球語音、聲學(xué)頂級會議ICASSP 2022公布了論文入選名單，網(wǎng)易互娛AI Lab共3篇學(xué)術(shù)論文被接收，并受邀于會議上面向?qū)W術(shù)和工業(yè)界進行研究報告。ICASSP（International Conference on Acoustics, Speech and Signal Processing）即國際聲學(xué)、語音與信號處理會議，是IEEE主辦的全世界最大的，也是最全面的信號處理及其應(yīng)用方面的頂級會議，在國際上享有盛譽并具有廣泛的學(xué)術(shù)影響力。

　　此次論文入選是網(wǎng)易互娛AI Lab繼INTERSPEECH 2020國際聲紋識別冠軍、第六屆OLR東方識別國際競賽雙賽道冠軍和被INTERSPEECH 2020&2021收錄3篇論文后在語音信號處理領(lǐng)域又一新的里程碑。在取得理論研究突破的同時，網(wǎng)易互娛AI Lab研發(fā)的語音合成、語音識別、語音控制以及語音變聲&轉(zhuǎn)換技術(shù)等相關(guān)技術(shù)，已成功在《夢幻西游》、《哈利波特：魔法覺醒》、《陰陽師》、《天下3》、《狼人殺》等多個游戲項目中落地，助力豐富游戲玩法并提升游戲體驗。

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

　　收錄論文概述

　　1、DATA AUGMENTATION FOR LONG-TAILED AND IMBALANCED POLYPHONE DISAMBIGUATION IN MANDARIN

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

　　業(yè)務(wù)應(yīng)用：提升語音合成中發(fā)音的正確性。

　　多音字是中文的常見現(xiàn)象，為了正確合成文字發(fā)音，多音字消歧是必不可少的重要步驟。但在真實數(shù)據(jù)中，多音字讀音出現(xiàn)的頻率呈現(xiàn)明顯的長尾分布和非平衡現(xiàn)象（如上圖所示），導(dǎo)致多音字消歧模型在長尾數(shù)據(jù)上錯誤率通常較高而成為一件十分具有挑戰(zhàn)性的工作。

　　算法設(shè)計如下圖所示：

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

　　在論文中，我們提出了一種基于BERT預(yù)訓(xùn)練模型對多音字?jǐn)?shù)據(jù)進行增強的方法，通過mask原句并用BERT預(yù)測替換的方式，可以生成新的增強數(shù)據(jù)。結(jié)合有權(quán)重采樣（weighted sampling），可以得到類別平衡的數(shù)據(jù)，從而解決多音字長尾問題。同時，論文還提出了一種基于BERT的增強數(shù)據(jù)過濾策略，減少反復(fù)增強可能帶來的數(shù)據(jù)噪聲問題。最終的算法方案在不平衡讀音和長尾讀音的場景下相比基線有12%以上的提升。

　　2、DGC-VECTOR: A NEW SPEAKER EMBEDDING FOR ZERO-SHOT VOICE CONVERSION

　　業(yè)務(wù)應(yīng)用：提升零資源音色轉(zhuǎn)換的說話人相似度，為公司內(nèi)部提供音色轉(zhuǎn)換技術(shù)支持。

　　算法設(shè)計如下圖所示：

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

　　該論文結(jié)合了預(yù)訓(xùn)練的說話人識別模型（Pre-trained ASV Model）, 語音風(fēng)格建模中的GSTs (Global Style Tokens）和說話人分類器，提出了一種適用于零資源語音音色轉(zhuǎn)換的說話人向量。實驗證明, 該方法對比常用的說話人表征向量D-vector在音色轉(zhuǎn)化后的說話人相似度方面有5%的提升，在跨說話人轉(zhuǎn)換的場景下提升達到12%。

　　3、IMPROVE FEW-SHOT VOICE CLONING USING MULTI-MODAL LEARNING

　　業(yè)務(wù)應(yīng)用：提升少量數(shù)據(jù)音色克隆效果，為公司內(nèi)部提供音色克隆技術(shù)支持。

　　算法設(shè)計如下圖所示：

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

　　該論文提出了使用多模態(tài)，多任務(wù)學(xué)習(xí)提升在少量數(shù)據(jù)的場景下音色克隆的效果。論文提出的模型主要包括兩個模塊：

　�。�1）基于VQ-VAE（Vector-Quantized Variational Auto-encoder）的無監(jiān)督語音表征模塊

　�。�2）基于Tacotron 生成語音波形的模塊

　　實驗證明，在少量數(shù)據(jù)的音色克隆場景下，該模型融合了語音和文本兩個模態(tài)，對比單一模態(tài)的模型在語音合成和語音音色轉(zhuǎn)換中的自然度和說話人相似度上都有顯著的提升。另外，該模型也同時支持語音合成（Text-to-speech）和語音音色轉(zhuǎn)換（Voice Conversion）兩個任務(wù)，能夠適用于更多的應(yīng)用場景，減少實際落地的工作量。

（責(zé)任編輯：岳權(quán)利 HN152）

【免責(zé)聲明】本文僅代表合作供稿方觀點，不代表和訊網(wǎng)立場。投資者據(jù)此操作，風(fēng)險請自擔(dān)。

看全文

寫評論已有條評論跟帖用戶自律公約

提交還可輸入500字

午夜不卡视频在线观看_国产精品二区av_国产小黄片视频在线免费观看_日本一个人在线观看_亚洲国产三级免费观看_韩日人妻精品一区二区三区_环太平洋免费观看免费_欧美成人精品不卡在线观看

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

最新評論

熱門閱讀

和訊特稿

和訊熱銷金融證券產(chǎn)品

午夜不卡视频在线观看_国产精品二区av_国产小黄片视频在线免费观看_日本一个人在线观看_亚洲国产三级免费观看_韩日人妻精品一区二区三区_环太平洋免费观看免费_欧美成人精品不卡在线观看

網(wǎng)易互娛AI Lab三篇論文被頂級國際會議 ICASSP 2022收錄

最新評論

熱門閱讀

和訊特稿

推薦閱讀

和訊熱銷金融證券產(chǎn)品