HyperAI超神经 ·

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架LongCat 1.5；百万级图表理解数据集ChartNet提升VLM图表重建与表格提取能力

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

LongCat-Video-Avatar 1.5 是美团团队于2026年推出的开源音频驱动视频生成框架。用户只需提供静态图像和音频，即可生成口型同步的动态视频，适用于真实人像和动漫角色，具备高保真画面和长视频生成能力。

🎯

🔎

LongCat-Video-Avatar 1.5 采用了 Whisper 驱动的语音特征提取和步数蒸馏技术，使得视频生成过程大幅度加速。这种技术创新不仅提升了生成效率，还确保了高保真的画面质量，适合多种应用场景。

该框架支持真实人像、动漫角色及动物化身的生成，意味着在娱乐、教育和广告等领域都有广泛的应用潜力。用户可以利用这一技术创造个性化内容，提升用户体验和互动性。

ChartNet 数据集的发布为图表理解和表格提取提供了重要的基础，然而，如何有效利用这些数据集进行模型训练和优化仍然是一个挑战。研究者需关注数据集的多样性和质量，以提升模型的泛化能力。

❓

LongCat-Video-Avatar 1.5 是美团团队于2026年推出的开源音频驱动视频生成框架。

用户只需提供一张静态图像和一段音频，即可生成口型同步的动态视频。

该框架支持真实人像、2D/3D 动漫角色及动物化身。

该模型采用 Whisper 驱动的语音特征提取和步数蒸馏技术，生成过程压缩至8步，保证高保真画面。

该框架适用于多场景视频生成，包括真实世界场景、动漫和动物等风格化领域。

该框架具备高保真画面和长视频生成能力，确保生成的视频质量优良。

🏷️