实时互动网 ·

美团 LongCat-Video-Avatar 发布，实现开源SOTA级拟真表现

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

美团开源的LongCat-Video-Avatar模型在虚拟人视频生成方面取得显著进展，支持多任务生成，提升了动作拟真度和长视频稳定性，解决了身份一致性问题，广泛应用于影视娱乐等领域。

🎯

关键要点

美团开源的LongCat-Video-Avatar模型在虚拟人视频生成方面取得显著进展。
该模型支持多任务生成，包括音频文本到视频、音频文本图像到视频及视频续写等功能。
LongCat-Video-Avatar在动作拟真度、长视频稳定性和身份一致性方面有显著突破。
模型采用解耦无条件引导训练方法，使虚拟人在静音时也能自然表现。
引入跨片段隐空间拼接训练策略，解决长视频生成中的视觉质量退化问题。
通过带位置编码的参考帧注入模式，提升长视频中的身份一致性。
Reference Skip Attention机制有效抑制动作重复与僵化，确保长视频的稳定性与变化性。
在多个权威数据集上，LongCat-Video-Avatar在核心指标上达到SOTA领先水平。
综合主观评测显示，LongCat-Video-Avatar在多个应用场景中表现优异，超越其他主流模型。
开源LongCat-Video-Avatar旨在与开发者共同迭代，解决实际问题，推动数字人生成技术的发展。

❓

延伸问答

LongCat-Video-Avatar模型的主要功能是什么？

LongCat-Video-Avatar模型支持音频文本到视频、音频文本图像到视频及视频续写等多任务生成。

LongCat-Video-Avatar在长视频生成方面有哪些优势？

该模型在长视频生成中实现了动作拟真度、长视频稳定性和身份一致性的显著突破。

LongCat-Video-Avatar如何解决长视频生成中的视觉质量退化问题？

模型采用跨片段隐空间拼接训练策略，避免了视觉质量退化和累积误差。

LongCat-Video-Avatar在用户体验方面的表现如何？

在综合主观评测中，LongCat-Video-Avatar在自然度与真实感方面表现优异，超越其他主流模型。

LongCat-Video-Avatar的开源目的是什么？

开源旨在与开发者共同迭代，解决实际问题，推动数字人生成技术的发展。

LongCat-Video-Avatar在不同应用场景中的表现如何？

该模型在影视娱乐、日常生活和知识教育等场景中表现最优，展现出强泛化能力。

🏷️

继续阅读

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源
美团龙猫LongCat发布了LongCat-Video-Avatar 1.5，提升了数字人视频模型的唇形同步、物理合理性和多人互动能力，支持复杂场景下的高...
Google 开源 AX 与 Agent Substrate：构建以 Agent 为核心的云原生计算底座
Google 在 I/O ’26 大会上推出了以 Agent 为核心的云原生计算基础设施，包括开源项目 AX 和 Agent Substrate。该系统通...
ToDesk 达成 2 亿装机量里程碑：8K 旗舰级画质加持，远程控制软件开始进入“视网膜”级竞争
ToDesk是一款专业的远程控制软件，支持8K超高清画质和360帧流畅体验，解决了远程操作中的画质模糊和延迟问题。它兼容多种操作系统，支持文件传输和扩展屏...
MoE环游记：8、强制序列级均衡
到目前为止，“MoE环游记”系列已经写了7篇文章，其中5篇都是围绕着MoE的路由和负载均衡展开的。从路由的形式来看，它们可以分为静态计算和动态计算两类；从...
Ross Video将投资1.225亿加元扩大生产制造和研发规模
Ross Video 公司宣布投资1.225亿加元，扩展渥太华和伊罗魁市的工厂，创造125个高技能岗位，推动人工智能媒体处理和现场制作流程的研发，提升处理...
文档基金会(开源LibreOffice开发商)再次发文抨击微软的OOXML专有格式
文档基金会批评微软的OOXML格式，认为其复杂且不透明，导致用户被锁定在微软生态中。基金会提倡使用ODF开源格式，认为只有将ODF作为默认选项，才能实现真正的数字主权。