💡
原文日文,约2100字,阅读约需5分钟。
📝
内容提要
字节跳动的INFP技术实现了交互式人像生成,能够在多轮对话中自然切换说话与倾听状态,通过双轨对话音频驱动肖像生成视频,提供沉浸式体验,推动视觉对话智能体的发展。
🎯
关键要点
- 字节跳动的INFP技术实现了交互式人像生成,能够在多轮对话中自然切换说话与倾听状态。
- INFP技术通过双轨对话音频驱动肖像生成视频,提供沉浸式体验。
- 该技术是构建视觉对话智能体的关键,确保自然、逼真的行为和视觉反馈。
- 传统的人像生成技术主要面向单一方向交互,无法实现自由的听说行为。
- INFP技术仅需输入双轨对话音频即可实时生成相应的对话视频。
- INFP包含两个阶段:运动基础头部模仿和音频引导运动生成。
- 实验结果表明INFP在多个方面优于其他市面上的SOTA方案。
- 该工作仅用于学术研究,限制模型的对外开放和使用权限。
- 字节跳动智能创作数字人团队专注于数字人生成和驱动技术,提供行业解决方案。
➡️