解道jdon.com

解道jdon.com -

阿里巴巴推出EMO:会说话的肖像

阿里巴巴集团智能计算研究院推出:EMO:Emote Portrait Alive - 在弱条件下使用音视频扩散模型生成富有表现力的肖像视频我们提出了 EMO,一种富有表现力的音频驱动的肖像视频生成框架。输入单个参考图像和声音音频,例如说话和唱歌,我们的方法可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,我们可以根据输入视频的长度生成任意持续时间的视频。通过专注于音频线索和面部运动之间的动态和细微差别的关系,解决了增强说话头部视频生成中的真实感和表现力的挑战。我们确定了传统技术的局限性,这些技术往往无法捕捉到人类表情的全部频谱和个人面部风格的独特性。为了解决这些问题,我们提出了

阿里巴巴推出EMO,一种音频驱动的肖像视频生成框架。通过输入参考图像和声音音频,可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频。该框架解决了增强说话头部视频生成中的真实感和表现力的挑战。实验结果表明,EMO在表现力和真实感方面优于现有方法。

相关推荐 去reddit讨论

热榜 Top10

LigaAI
LigaAI
Dify.AI
Dify.AI
eolink
eolink
观测云
观测云

推荐或自荐