美团技术团队 ·

美团 LongCat-Video-Avatar 正式发布，实现开源 SOTA 级拟真表现

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

美团开源的LongCat-Video-Avatar模型在虚拟人视频生成方面取得显著进展，支持多任务生成，提升了动作拟真度和长视频稳定性，解决了身份一致性问题，广泛应用于影视和教育等领域。

🎯

关键要点

美团开源的LongCat-Video-Avatar模型在虚拟人视频生成方面取得显著进展。
LongCat-Video-Avatar支持多任务生成，包括Audio-Text-to-Video和视频续写等功能。
该模型在动作拟真度、长视频稳定性和身份一致性方面实现了显著突破。
LongCat-Video-Avatar通过解耦无条件引导技术，使虚拟人能够自然地进行微动作。
Cross-Chunk Latent Stitching训练策略解决了长视频生成中的视觉质量退化问题。
引入带位置编码的参考帧注入模式，提升了长视频中的身份一致性。
LongCat-Video-Avatar在多个权威数据集上达到SOTA领先水平。
在大规模人工评测中，LongCat-Video-Avatar在自然度与真实感方面表现优异。
该模型在影视娱乐、日常生活和知识教育等场景中展现出强泛化能力。
开源旨在促进共创，鼓励开发者反馈与参与技术迭代。

❓

延伸问答

LongCat-Video-Avatar模型的主要功能是什么？

LongCat-Video-Avatar模型支持多任务生成，包括Audio-Text-to-Video、Audio-Text-Image-to-Video和视频续写等功能。

LongCat-Video-Avatar如何提高长视频的稳定性？

该模型通过Cross-Chunk Latent Stitching训练策略解决了长视频生成中的视觉质量退化问题，确保生成视频的稳定性和清晰度。

LongCat-Video-Avatar在身份一致性方面有哪些创新？

模型引入了带位置编码的参考帧注入模式，确保长视频中的身份一致性，同时避免了色彩偏移和动作僵化。

LongCat-Video-Avatar在评测中表现如何？

在多个权威数据集上，LongCat-Video-Avatar在唇音同步精度和一致性指标上均达到SOTA领先水平，并在大规模人工评测中表现优异。

LongCat-Video-Avatar的开源目的是什么？

开源旨在促进共创，鼓励开发者反馈与参与技术迭代，以解决长视频生成中的实际问题。

LongCat-Video-Avatar适用于哪些应用场景？

该模型在影视娱乐、日常生活和知识教育等场景中展现出强泛化能力，适用于多种应用。

🏷️

继续阅读

从”对口型”到”数字人” 音频驱动虚拟人合成技术全景解析
自2021年以来，音频驱动虚拟人合成技术迅速发展，结合静态图像与音频生成同步视频，广泛应用于直播和客服等领域。主要技术挑战包括身份保持与音视频同步。近年来...
从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源
美团开源了LongCat-Video-Avatar 1.5数字人视频模型，提升了唇形同步、稳定性和多人互动能力。通过优化音频特征提取和数据处理，该模型在复...
AudioMass – 核心不到 100KB，在线、开源，多轨音频编辑器
AudioMass是一款免费、开源的在线音频编辑工具，无需下载和安装。它支持录音、导入音频及多种波形编辑功能，如裁剪和音量调整。体积小于100KB，使用原...
华为具身大脑一号位创业，用认知科学造世界模型，获亿元级融资
具脑磐石公司致力于开发认知世界模型，以提升机器人的类脑智能。该模型通过理解物理世界、预测行动后果和持续学习，增强机器人的认知能力。公司已完成亿元融资，计划...
AI 范式雷达：《AI 正在让开源协议失去约束力》
随着AI代码生成技术的发展，开源协议（如GPL）的约束力受到挑战。AI模型通过学习Copyleft代码而不触发开源义务，导致法律框架难以适应。文章分析了A...
十个开源免费录屏和剪辑工具：每个月省下五十美元
本文介绍了十个开源免费的录屏和剪辑工具，能够替代付费软件如Loom和Camtasia。这些工具包括OBS Studio、LosslessCut、Share...