近日,網(wǎng)易互娛AI Lab創(chuàng)新性地提出了一種語音合成對話動作的新方法。該方案不僅在GENEA 2022大賽中斬獲第一,所合成的動作表現(xiàn)出遠(yuǎn)超于其他參賽選手、甚至超越真人的真實自然度,同時技術(shù)論文也被國際計算機(jī)人際交互會議ACM ICMI 2022正式收錄。
GENEA 2022是語音合成對話動作領(lǐng)域的權(quán)威賽事,匯聚了全球來自工業(yè)界和學(xué)術(shù)界的頂尖隊伍,角逐非常激烈。而ACM ICMI是人機(jī)交互領(lǐng)域的重要國際會議,1996年舉行首次會議,迄今已經(jīng)持續(xù)24屆。大會重點關(guān)注多模態(tài)人機(jī)交互、界面設(shè)計和系統(tǒng)開發(fā),錄取論文在人機(jī)交互領(lǐng)域研究中也具有首屈一指的影響力。本次大賽奪冠和入選ACM ICMI代表了網(wǎng)易互娛AI Lab在計算機(jī)視覺領(lǐng)域的領(lǐng)先技術(shù)實力和來自國際的認(rèn)可。
語音合成對話動作技術(shù)能夠根據(jù)輸入語音和對應(yīng)的文本信息,自動生成上半身甚至全身動作,并需要保證合成動作的真實與自然性,也要保證動作和語音之間的匹配度。目前業(yè)界常用的方法為StyleGestures,但其合成的動作距離真實的動捕數(shù)據(jù)仍有明顯差距,存在動作機(jī)械感較重和效果隨機(jī)性較大的問題。在當(dāng)前背景下,網(wǎng)易互娛AI Lab提出了一種AI合成對話動作的新方法,該方案在動作合成的真實自然度指標(biāo)上遠(yuǎn)超GENEA大賽的其他選手,甚至小幅超過了真實動作;在動作與語音匹配度指標(biāo)上的表現(xiàn)也領(lǐng)先于其他隊伍。
( FSA :互娛AI Lab 全身 ,F(xiàn)NA: 真實全身;USQ: 互娛AI Lab 半身,UNA: 真實半身)
在方案中,網(wǎng)易互娛AI Lab的團(tuán)隊首先構(gòu)建了一個高質(zhì)量的離線動作庫,再通過語音節(jié)奏計算、手勢風(fēng)格預(yù)測和動作搜索匹配,以及動作融合的方式,構(gòu)建了一個基于動作圖優(yōu)化的語音驅(qū)動全身動作的模型。該模型在合成動作時不僅能夠考慮到語音的節(jié)奏,還可以支持不同的風(fēng)格,例如考慮到男性和女性不同的說話習(xí)慣和姿態(tài);同時,該模型還允許在不同時刻替換或指定待定的動作,并確保替換后的動作過渡自然。因此,網(wǎng)易互娛AI Lab所提出的語音合成對話動作新方法擁有更真實自然、穩(wěn)定可控的表現(xiàn),更有可能滿足實際生產(chǎn)的需求。
(左:男性動作,右:女性動作)
逼真自然的人物動作合成有望改變動畫、替身和交際智能體領(lǐng)域。近年來,語音合成口型的相關(guān)研究已非常普遍,但基于語音合成肢體動作的技術(shù)仍缺少統(tǒng)一評估標(biāo)準(zhǔn),鮮有落地。網(wǎng)易互娛AI Lab本次提出的語音合成對話動作技術(shù)正是在該領(lǐng)域的一次成功探索。不僅是生成對話動作,團(tuán)隊在基于語音生成口型、表情和舞蹈動畫方面,已經(jīng)研發(fā)出了能夠?qū)嶋H應(yīng)用于生產(chǎn)環(huán)境的AI技術(shù),并應(yīng)用于《一夢江湖》、《夢幻西游三維版》等游戲中,相比傳統(tǒng)流程中的動捕或手K大幅降低了制作成本,壓縮了生產(chǎn)周期。未來,網(wǎng)易互娛AI Lab也將不斷拓展AI自動生成內(nèi)容的邊界,打造更可信的虛擬角色,重塑智能交互體驗,讓我們距離元宇宙的暢想更進(jìn)一步。
【免責(zé)聲明】本文僅代表第三方觀點,不代表和訊網(wǎng)立場。投資者據(jù)此操作,風(fēng)險請自擔(dān)。
最新評論