语音视觉对话图:从自我中心视角到他人中心视角
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了名为Av-CONV的多模态、多任务框架,用于预测第一人称视角下摄像机佩戴者和其他社交伙伴的对话行为。通过自注意机制建模跨时间、跨主体和跨模态的表征。实验证明了该方法在具有多说话者和多对话情景的挑战性视频数据集上的优越性能。消融研究评估了模型中每个组件的贡献。
🎯
关键要点
- 提出了名为Av-CONV的多模态、多任务框架
- 用于预测第一人称视角下摄像机佩戴者和其他社交伙伴的对话行为
- 通过自注意机制建模跨时间、跨主体和跨模态的表征
- 在具有多说话者和多对话情景的挑战性视频数据集上验证了方法的优越性能
- 进行了消融研究以评估模型中每个组件的贡献
➡️