实时互动网 ·

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

美团龙猫LongCat发布了LongCat-Video-Avatar 1.5，提升了数字人视频模型的唇形同步、物理合理性和多人互动能力，支持复杂场景下的高质量内容输出，推理效率提升约15倍。团队希望通过开源推动数字人视频技术的发展。

🎯

🔎

LongCat-Video-Avatar 1.5在唇形同步和物理合理性方面的提升，意味着数字人视频生成的质量大幅提高。这对于商业应用尤为重要，能够在广告、影视制作等领域提供更真实的表现，增强用户体验。

通过开源，LongCat团队希望吸引更多开发者参与，推动数字人视频技术的创新。这种开放的合作模式可能加速技术的迭代与应用，促进整个行业的发展，值得关注未来的应用场景和技术进步。

尽管LongCat-Video-Avatar 1.5支持多种主体和复杂场景，但在实际应用中，如何确保不同环境下的稳定性和自然性仍然是一个挑战。开发者在使用时需关注模型在特定场景中的表现，以优化用户体验。

❓

LongCat-Video-Avatar 1.5主要提升了唇形同步、物理合理性、多人互动能力和推理效率，支持复杂场景下的高质量内容输出。

该模型采用DMD蒸馏至8步生成，推理效率提升约15倍，更适合规模化应用。

该模型支持处理真人、动漫、动物等多类主体，能够自然区分说话者与聆听者。

音频编码器从Wav2Vec2升级为Whisper-large，提升了唇形同步和全身动作的时序稳定性。

在用户偏好测评中，LongCat-Video-Avatar 1.5的胜率高于Kling Avatar 2.0、OmniHuman-1.5、HeyGen等主流模型。

团队希望通过开源推动数字人视频技术的发展，邀请开发者共同探索应用边界。

🏷️