从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

美团开源了LongCat-Video-Avatar 1.5数字人视频模型,提升了唇形同步、稳定性和多人互动能力。通过优化音频特征提取和数据处理,该模型在复杂场景中表现优异,生成效率提高15倍,适用于电商直播和教学等多种场景,推动数字人视频的实际应用。

🎯

关键要点

  • 美团开源了LongCat-Video-Avatar 1.5数字人视频模型,提升了唇形同步、稳定性和多人互动能力。
  • 模型在音频特征提取方面升级,使用Whisper-large编码器,提升了唇形同步与全身时序稳定性。
  • 构建了多阶段数据处理流程和三类增强数据,以应对虚拟人生成的典型难点,确保复杂场景中的稳定输出。
  • 通过DMD蒸馏技术,生成效率提高15倍,生成10秒视频仅需约1分钟。
  • 在综合评测中,LongCat-Video-Avatar 1.5在物理合理性、时间稳定性、身份一致性和音视频协调性方面表现优异,用户偏好高于其他商业系统。
  • LongCat-Video-Avatar 1.5的开源旨在邀请开发者和创作者探索数字人视频的真实应用边界。

延伸问答

LongCat-Video-Avatar 1.5的主要功能是什么?

LongCat-Video-Avatar 1.5提升了唇形同步、稳定性和多人互动能力,适用于复杂场景中的高质量内容生成。

LongCat-Video-Avatar 1.5如何提高生成效率?

通过DMD蒸馏技术,生成效率提高15倍,生成10秒视频仅需约1分钟。

该模型在音频特征提取方面有什么升级?

模型将编码器从Wav2Vec2升级为Whisper-large,提升了唇形同步与全身时序稳定性。

LongCat-Video-Avatar 1.5在用户偏好方面表现如何?

在用户偏好评测中,LongCat-Video-Avatar 1.5的表现优于其他商业系统,胜率高于65%。

LongCat-Video-Avatar 1.5适合哪些应用场景?

该模型适用于电商直播、产品展示和教学演示等多种场景。

LongCat-Video-Avatar 1.5的开源目的是什么?

开源旨在邀请开发者和创作者探索数字人视频的真实应用边界。

➡️

继续阅读