受到最近扩散模型在高质量的图像以及视频生成方面已经取得了快速( 三 )


结论
【受到最近扩散模型在高质量的图像以及视频生成方面已经取得了快速】针对基于音频驱动的高保真度说话人视频生成这个任务 , 云从 - 上交的联合研究团队提出了 , 基于扩散框架的音频驱动说话人视频生成方法 , 只需要一帧或几帧身份图像以及输入语音音频 , 即合成一个高保真度的人脸视频 , 实现了最先进的合成视频视觉质量 。此外利用了跨模态唇音对比学习的方法 , 从而提升了唇部和音频的一致性 , 在公开数据集上取得了 SOTA 表现 。