实时互动网 ·

美团 LongCat-Video-Avatar 发布，实现开源SOTA级拟真表现

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

美团开源的LongCat-Video-Avatar模型在虚拟人视频生成方面取得显著进展，支持多任务生成，提升了动作拟真度和长视频稳定性，解决了身份一致性问题，广泛应用于影视娱乐等领域。

🎯

关键要点

美团开源的LongCat-Video-Avatar模型在虚拟人视频生成方面取得显著进展。
该模型支持多任务生成，包括音频文本到视频、音频文本图像到视频及视频续写等功能。
LongCat-Video-Avatar在动作拟真度、长视频稳定性和身份一致性方面有显著突破。
模型采用解耦无条件引导训练方法，使虚拟人在静音时也能自然表现。
引入跨片段隐空间拼接训练策略，解决长视频生成中的视觉质量退化问题。
通过带位置编码的参考帧注入模式，提升长视频中的身份一致性。
Reference Skip Attention机制有效抑制动作重复与僵化，确保长视频的稳定性与变化性。
在多个权威数据集上，LongCat-Video-Avatar在核心指标上达到SOTA领先水平。
综合主观评测显示，LongCat-Video-Avatar在多个应用场景中表现优异，超越其他主流模型。
开源LongCat-Video-Avatar旨在与开发者共同迭代，解决实际问题，推动数字人生成技术的发展。

🏷️

继续阅读

如何使用GitHub安全实验室的开源AI驱动框架扫描安全漏洞
我们利用GitHub安全实验室的任务流代理，成功发现80多个开源项目中的高影响力安全漏洞，主要涉及授权绕过和信息泄露。新任务流提高了结果验证和报告发布的效...
Anthropic与OpenAI争夺最佳开源维护者
如果Anthropic项目招募到10,000名开发者，预计价值约1200万美元。对于刚融资300亿美元的公司而言，这笔费用不算高，但能获得维护者的支持，推...
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
MOSS-TTS：基于 CAT 架构的解耦式生产级语音生成模型；打破单细胞分析壁垒：Pan-Cancer scRNA-Seq 数据集构建跨癌种免疫图谱基准
MOSS-TTS系列是MOSI.AI与OpenMOSS联合推出的多模型语音生成工具，克服了单一模型在复杂场景中的局限，支持高保真语音、对话和实时交互，适用...
基于 Avalonia + Vosk 的跨平台工业级离线语音采集方案
本文介绍了一款专为工业环境设计的本地化语音录制与实时转写工具，支持离线操作，适用于Windows和macOS，能够快速将语音转为文本，提高记录效率，确保数...
2026.3.7
Echo Chamber Vol.2 已完成，内容包括博客、日记、推特和 Instagram 照片，约238页。使用 Sketch 排版并导出 PDF，鼓...

美团 LongCat-Video-Avatar 发布，实现开源SOTA级拟真表现

内容提要

关键要点

标签

继续阅读