本研究提出了一种新型动态情感识别架构MAVEN,通过双向跨模态注意力机制整合视觉、音频和文本信息,显著提升了情感捕捉能力。实验结果表明,其在真实环境中的表现优于现有技术。
该研究提出了一种新的视觉-语言模型,通过采用样本级文本描述进行零样本分类,取得了显著的改进。在四个动态情感识别数据集上测试,该方法在下游任务中表现出与人类专家相当或更优的性能。
完成下面两步后,将自动完成登录并继续当前操作。