面向对象感知的自适应正性学习用于音频 - 视觉问答

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新的多项选择视频问题回答的训练方案,包括自监督预训练和监督对比学习。实验结果表明该模型在相关测试集上取得了最先进的性能。

🎯

关键要点

  • 介绍了一种新的多项选择视频问题回答的训练方案。
  • 训练方案包括自监督预训练阶段和监督对比学习的辅助学习。
  • 自监督预训练阶段通过转化原始问题格式来预测相关问题。
  • 对比学习阶段添加了屏蔽噪声,改进模型表现。
  • 采用本地对齐注意力关注相关字幕句子的视频帧。
  • 实验结果显示模型在相关测试集上取得了最先进的性能。
➡️

继续阅读