💡 原文中文,约3200字,阅读约需8分钟。
📝

内容提要

美团开源的LongCat-Video-Avatar模型在虚拟人视频生成方面取得显著进展,支持多任务生成,提升了动作拟真度和长视频稳定性,解决了身份一致性问题,广泛应用于影视娱乐等领域。

🎯

关键要点

  • 美团开源的LongCat-Video-Avatar模型在虚拟人视频生成方面取得显著进展。
  • 该模型支持多任务生成,包括音频文本到视频、音频文本图像到视频及视频续写等功能。
  • LongCat-Video-Avatar在动作拟真度、长视频稳定性和身份一致性方面有显著突破。
  • 模型采用解耦无条件引导训练方法,使虚拟人在静音时也能自然表现。
  • 引入跨片段隐空间拼接训练策略,解决长视频生成中的视觉质量退化问题。
  • 通过带位置编码的参考帧注入模式,提升长视频中的身份一致性。
  • Reference Skip Attention机制有效抑制动作重复与僵化,确保长视频的稳定性与变化性。
  • 在多个权威数据集上,LongCat-Video-Avatar在核心指标上达到SOTA领先水平。
  • 综合主观评测显示,LongCat-Video-Avatar在多个应用场景中表现优异,超越其他主流模型。
  • 开源LongCat-Video-Avatar旨在与开发者共同迭代,解决实际问题,推动数字人生成技术的发展。
➡️

继续阅读