烽火流金,日本高清免费在线视频,国产91小视频

西交大開(kāi)源SadTalker模型圖片+音頻秒變視頻！

站長(zhǎng)之家

2023-04-19 16:08:15

站長(zhǎng)之家（ChinaZ.com）4月19日消息:最近，西安交通大學(xué)的研究人員提出了SadTalker模型，通過(guò)從音頻中學(xué)習(xí)生成3D運(yùn)動(dòng)系數(shù)，使用全新的3D面部渲染器來(lái)生成頭部運(yùn)動(dòng)，可以實(shí)現(xiàn)圖片+音頻就能生成高質(zhì)量的視頻。

為了實(shí)現(xiàn)音頻驅(qū)動(dòng)的真實(shí)頭像視頻生成，研究人員將3DMM的運(yùn)動(dòng)系數(shù)視為中間表征，并將任務(wù)分為兩個(gè)主要部分（表情和姿勢(shì)），旨在從音頻中生成更真實(shí)的運(yùn)動(dòng)系數(shù)(如頭部姿勢(shì)、嘴唇運(yùn)動(dòng)和眼睛眨動(dòng))，并單獨(dú)學(xué)習(xí)每個(gè)運(yùn)動(dòng)以減少不確定性。最后通過(guò)一個(gè)受face-vid2vid啟發(fā)設(shè)計(jì)的3D感知的面部渲染來(lái)驅(qū)動(dòng)源圖像。

論文鏈接:https://arxiv.org/pdf/2211.12194.pdf

項(xiàng)目主頁(yè):https://sadtalker.github.io/

研究人員使用SadTalker模型從音頻中學(xué)習(xí)生成3D運(yùn)動(dòng)系數(shù)，使用全新的3D面部渲染器來(lái)生成頭部運(yùn)動(dòng)。該技術(shù)可以控制眨眼頻率，音頻可以是英文、中文、歌曲。

這項(xiàng)技術(shù)在數(shù)字人創(chuàng)作、視頻會(huì)議等多個(gè)領(lǐng)域都有應(yīng)用，能夠讓靜態(tài)照片動(dòng)起來(lái)，但目前仍然是一項(xiàng)非常有挑戰(zhàn)性的任務(wù)。SadTalker模型的出現(xiàn)解決了生成視頻的質(zhì)量不自然、面部表情扭曲等問(wèn)題。該技術(shù)可以應(yīng)用于數(shù)字人創(chuàng)作、視頻會(huì)議等多個(gè)領(lǐng)域。

上一篇：不可一世的ASML急了

下一篇：孟晚舟：躍升數(shù)字生產(chǎn)力正當(dāng)時(shí)

八戒八戒午夜视频_国产欧美一区二区三区不卡_乡村大坑的性事小说_女人脱裤子让男生桶爽在线观看