研究发现,大型语言模型在担任治疗师角色时的对话行为更接近低质量治疗,需要进一步研究来提高质量治疗。
该研究提出了名为Av-CONV的多模态、多任务框架,用于预测第一人称视角下摄像机佩戴者和其他社交伙伴的对话行为。通过自注意机制建模跨时间、跨主体和跨模态的表征。实验证明了该方法在具有多说话者和多对话情景的挑战性视频数据集上的优越性能。消融研究评估了模型中每个组件的贡献。
完成下面两步后,将自动完成登录并继续当前操作。