美团技术团队 ·

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

美团开源了LongCat-Video-Avatar 1.5数字人视频模型，提升了唇形同步、稳定性和多人互动能力。通过优化音频特征提取和数据处理，该模型在复杂场景中表现优异，生成效率提高15倍，适用于电商直播和教学等多种场景，推动数字人视频的实际应用。

🎯

🔎

LongCat-Video-Avatar 1.5的技术升级，特别是在音频特征提取和数据处理方面，显著提升了模型在复杂场景中的表现。这意味着在电商直播和教学等应用中，数字人能够更自然地与观众互动，提升用户体验。

LongCat-Video-Avatar 1.5的开源不仅为开发者提供了一个强大的工具，也鼓励社区共同探索数字人视频的应用边界。这种开放性可能促进更多创新，推动数字人技术的广泛应用。

随着生成效率的提升，LongCat-Video-Avatar 1.5在商业场景中的应用潜力巨大。其在多人互动和长视频稳定性方面的优势，能够满足电商和教育等行业对高质量内容的需求，推动相关业务的发展。

❓

LongCat-Video-Avatar 1.5提升了唇形同步、稳定性和多人互动能力，适用于复杂场景中的高质量内容生成。

通过DMD蒸馏技术，生成效率提高15倍，生成10秒视频仅需约1分钟。

模型将编码器从Wav2Vec2升级为Whisper-large，提升了唇形同步与全身时序稳定性。

在用户偏好评测中，LongCat-Video-Avatar 1.5的表现优于其他商业系统，胜率高于65%。

该模型适用于电商直播、产品展示和教学演示等多种场景。

开源旨在邀请开发者和创作者探索数字人视频的真实应用边界。

🏷️