语音视觉对话图：从自我中心视角到他人中心视角

原文约300字，阅读约需1分钟。发表于：。

我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注（Av-CONV），用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为，我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能，并进行了详细的消融研究来评估模型中每个组件的贡献。

该研究提出了名为Av-CONV的多模态、多任务框架，用于预测第一人称视角下摄像机佩戴者和其他社交伙伴的对话行为。通过自注意机制建模跨时间、跨主体和跨模态的表征。实验证明了该方法在具有多说话者和多对话情景的挑战性视频数据集上的优越性能。消融研究评估了模型中每个组件的贡献。