从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

美团龙猫LongCat发布了LongCat-Video-Avatar 1.5,提升了数字人视频模型的唇形同步、物理合理性和多人互动能力,支持复杂场景下的高质量内容输出,推理效率提升约15倍。团队希望通过开源推动数字人视频技术的发展。

🎯

关键要点

  • 美团龙猫LongCat发布了LongCat-Video-Avatar 1.5,作为一款数字人视频模型,支持商业级应用。

  • 该模型在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理方面实现了全面提升。

  • LongCat-Video-Avatar 1.5能够在复杂商业场景中稳定输出高质量内容。

  • 模型在长句、快语速、歌唱等复杂语音输入下,唇部运动更精准,整体表达自然稳定。

  • 支持处理真人、动漫、动物等多类主体,多人对话更加自然且准确区分说话者与聆听者。

  • 推理效率提升约15倍,更适合规模化应用和真实业务场景。

  • 音频编码器从Wav2Vec2升级为Whisper-large,提升了唇形同步和全身动作的时序稳定性。

  • 构建了高质量数据体系,解决多人交互、非说话角色微表情和情感表达等难点。

  • LongCat-Video-Avatar 1.5在多个评测维度表现领先,用户偏好测评中胜率高于其他主流模型。

  • 团队希望通过开源推动数字人视频技术的发展,邀请开发者共同探索应用边界。

延伸问答

LongCat-Video-Avatar 1.5的主要功能是什么?

LongCat-Video-Avatar 1.5主要提升了唇形同步、物理合理性、多人互动能力和推理效率,支持复杂场景下的高质量内容输出。

LongCat-Video-Avatar 1.5如何提升推理效率?

该模型采用DMD蒸馏至8步生成,推理效率提升约15倍,更适合规模化应用。

LongCat-Video-Avatar 1.5支持哪些类型的主体?

该模型支持处理真人、动漫、动物等多类主体,能够自然区分说话者与聆听者。

LongCat-Video-Avatar 1.5的音频编码器有什么升级?

音频编码器从Wav2Vec2升级为Whisper-large,提升了唇形同步和全身动作的时序稳定性。

LongCat-Video-Avatar 1.5在用户偏好测评中表现如何?

在用户偏好测评中,LongCat-Video-Avatar 1.5的胜率高于Kling Avatar 2.0、OmniHuman-1.5、HeyGen等主流模型。

LongCat团队开源此模型的目的是什么?

团队希望通过开源推动数字人视频技术的发展,邀请开发者共同探索应用边界。

➡️

继续阅读