FlowVQTalker:通过正则化流和量化实现高质量的情感说话人脸生成
原文中文,约200字,阅读约需1分钟。发表于: 。利用归一化流和向量量化建模生成既满足面部动态的同步性和多对多映射关系,又包含高清纹理和细节牙齿的情感说话脸,具体方法为通过流式系数生成器对面部情绪进行编码,利用伴随音频引导随机采样生成唇同步和不确定的非言语面部线索,并借助学习的码本提供富有表现力、高质量的纹理,从而增强结果的情感感知。
本研究提出了一种新的语音驱动面部生成方法,能够通过输入语音、面部图像和情感标签来呈现表情。该系统在图像质量、音视频同步和视觉情感表达方面表现出色,经过主观和客观评估证明了其优越性。此外,利用生成的视频进行了人类情感识别实验,结果显示在音频和视觉模态不匹配的情况下,人们对视觉模态的响应更为显著。