内容提要
美团龙猫LongCat发布了LongCat-Video-Avatar 1.5,提升了数字人视频模型的唇形同步、物理合理性和多人互动能力,支持复杂场景下的高质量内容输出,推理效率提升约15倍。团队希望通过开源推动数字人视频技术的发展。
关键要点
-
美团龙猫LongCat发布了LongCat-Video-Avatar 1.5,作为一款数字人视频模型,支持商业级应用。
-
该模型在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理方面实现了全面提升。
-
LongCat-Video-Avatar 1.5能够在复杂商业场景中稳定输出高质量内容。
-
模型在长句、快语速、歌唱等复杂语音输入下,唇部运动更精准,整体表达自然稳定。
-
支持处理真人、动漫、动物等多类主体,多人对话更加自然且准确区分说话者与聆听者。
-
推理效率提升约15倍,更适合规模化应用和真实业务场景。
-
音频编码器从Wav2Vec2升级为Whisper-large,提升了唇形同步和全身动作的时序稳定性。
-
构建了高质量数据体系,解决多人交互、非说话角色微表情和情感表达等难点。
-
LongCat-Video-Avatar 1.5在多个评测维度表现领先,用户偏好测评中胜率高于其他主流模型。
-
团队希望通过开源推动数字人视频技术的发展,邀请开发者共同探索应用边界。
延伸问答
LongCat-Video-Avatar 1.5的主要功能是什么?
LongCat-Video-Avatar 1.5主要提升了唇形同步、物理合理性、多人互动能力和推理效率,支持复杂场景下的高质量内容输出。
LongCat-Video-Avatar 1.5如何提升推理效率?
该模型采用DMD蒸馏至8步生成,推理效率提升约15倍,更适合规模化应用。
LongCat-Video-Avatar 1.5支持哪些类型的主体?
该模型支持处理真人、动漫、动物等多类主体,能够自然区分说话者与聆听者。
LongCat-Video-Avatar 1.5的音频编码器有什么升级?
音频编码器从Wav2Vec2升级为Whisper-large,提升了唇形同步和全身动作的时序稳定性。
LongCat-Video-Avatar 1.5在用户偏好测评中表现如何?
在用户偏好测评中,LongCat-Video-Avatar 1.5的胜率高于Kling Avatar 2.0、OmniHuman-1.5、HeyGen等主流模型。
LongCat团队开源此模型的目的是什么?
团队希望通过开源推动数字人视频技术的发展,邀请开发者共同探索应用边界。