字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

💡 原文日文,约2100字,阅读约需5分钟。
📝

内容提要

字节跳动的INFP技术实现了交互式人像生成,能够在多轮对话中自然切换说话与倾听状态,通过双轨对话音频驱动肖像生成视频,提供沉浸式体验,推动视觉对话智能体的发展。

🎯

关键要点

  • 字节跳动的INFP技术实现了交互式人像生成,能够在多轮对话中自然切换说话与倾听状态。
  • INFP技术通过双轨对话音频驱动肖像生成视频,提供沉浸式体验。
  • 该技术是构建视觉对话智能体的关键,确保自然、逼真的行为和视觉反馈。
  • 传统的人像生成技术主要面向单一方向交互,无法实现自由的听说行为。
  • INFP技术仅需输入双轨对话音频即可实时生成相应的对话视频。
  • INFP包含两个阶段:运动基础头部模仿和音频引导运动生成。
  • 实验结果表明INFP在多个方面优于其他市面上的SOTA方案。
  • 该工作仅用于学术研究,限制模型的对外开放和使用权限。
  • 字节跳动智能创作数字人团队专注于数字人生成和驱动技术,提供行业解决方案。
➡️

继续阅读