美团开源了LongCat-Video-Avatar 1.5数字人视频模型,提升了唇形同步、稳定性和多人互动能力。通过优化音频特征提取和数据处理,该模型在复杂场景中表现优异,生成效率提高15倍,适用于电商直播和教学等多种场景,推动数字人视频的实际应用。
美团龙猫LongCat发布了LongCat-Video-Avatar 1.5,提升了数字人视频模型的唇形同步、物理合理性和多人互动能力,支持复杂场景下的高质量内容输出,推理效率提升约15倍。团队希望通过开源推动数字人视频技术的发展。
携程数字人直播是一种通过数字人进行商品讲解和用户互动的新模式,已完成数千场直播。该模式结合音色复刻和唇形同步技术,克服了真人直播的局限性,具备高保真音色、实时互动和成本控制等优势。未来将持续完善功能,探索更多应用场景。
FaceFusion是一款强大的AI换脸软件,支持图片、视频和直播换脸,效果自然,兼容多种硬件,提供多种处理模式和自定义设置,具备预览和唇形同步功能,安装使用简单,适合不同用户需求。
本文综述了基于深度学习的说话头部生成技术,分析了音频驱动和视频驱动方法的优缺点,并提出了新方法GeneFace和DreamHead,以提高唇形同步和视频质量,为未来研究指明方向。
Talk3D是一种新型音频驱动的说话头合成框架,能够高效重建面部几何形状。该模型采用音频驱动的注意力U-Net架构,在动态面部变化生成方面表现优异,尤其在极端头部姿势下。研究还提出了GeneFace和GeneFace++,实现高保真、实时的音频-唇形同步生成。其他方法如HiDe-NeRF和SyncTalk在面部表情和姿态的真实性上也取得了显著进展。
完成下面两步后,将自动完成登录并继续当前操作。