机器之心 ·

ByteDance's New Innovation! Photos + Audio Transform the Mona Lisa into a Podcast Host

💡 原文日文，约2100字，阅读约需5分钟。

📝

内容提要

字节跳动的INFP技术实现了交互式人像生成，能够在多轮对话中自然切换说话与倾听状态，通过双轨对话音频驱动肖像生成视频，提供沉浸式体验，推动视觉对话智能体的发展。

🎯

🔎

字节跳动的INFP技术在交互式人像生成领域具有重要意义。与传统的单一交互技术不同，INFP能够实现多轮对话中的自然切换，提升了用户体验。这一技术的进步反映了AI在视觉对话智能体构建中的潜力，可能会推动更多相关应用的发展。

INFP在多个方面的实验结果显示出其优于市场上现有的SOTA方案。这表明该技术在生成自然人像行为和反馈方面的有效性，尤其是在多轮对话场景中。用户在使用时应关注其在实际应用中的表现，尤其是在复杂对话中的适应能力。

该技术目前仅用于学术研究，限制了模型的对外开放和使用权限。这一措施旨在防止技术被恶意利用，用户在关注技术应用时应注意其安全性和合规性，确保在合法范围内使用相关技术。

❓

INFP技术实现了交互式人像生成，能够在多轮对话中自然切换说话与倾听状态。

INFP技术通过输入双轨对话音频，实时驱动肖像照片生成相应的对话视频。

传统技术主要面向单一方向交互，而INFP技术支持自由的听说行为和无缝状态切换。

实验表明INFP在多个方面优于其他市面上的SOTA方案，且在单一交互场景中也表现出色。

该技术仅用于学术研究，限制模型的对外开放和使用权限。

该团队专注于数字人生成和驱动技术，涵盖计算机视觉、音视频编辑等领域。

🏷️