实时互动网 ·

基于跨模态对比表征学习的鲁棒视频问答 | 杨勋,曾建明,汪萌等

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

研究团队提出了一种鲁棒的视频问答框架，通过自监督对比学习和时序正则项，提升了视频内容理解能力，减少了数据偏见的影响。实验结果表明，该方法在多个数据集上显著提高了问答性能，尤其在处理不平衡数据时表现突出。

🎯

❓

鲁棒的视频问答框架是一种通过自监督对比学习和时序正则项提升视频内容理解能力的系统，旨在减少数据偏见的影响。

该框架通过避免对伪关联关系的过度依赖，增强模型对视频时序和语义特性的理解，从而减少数据偏见的影响。

该方法在MSVD-QA、MSRVTT-QA、Traffic-QA和NExT-QA等多个数据集上表现突出，尤其在处理不平衡数据时。

框架中引入了自监督对比学习项、时序正则项和基于Kullback-Leibler散度的扰动不变正则项。

该方法在不平衡数据集上能够显著提高问答性能，尤其在Macro得分指标上表现出更高的相对性能提升。

创新点包括设计了三个有效的学习目标项，提升了视频问答模型的鲁棒性和可靠性，并能与现有方法兼容。

🏷️