面向对象感知的自适应正性学习用于音频 - 视觉问答
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的多项选择视频问题回答的训练方案,包括自监督预训练和监督对比学习。实验结果表明该模型在相关测试集上取得了最先进的性能。
🎯
关键要点
- 介绍了一种新的多项选择视频问题回答的训练方案。
- 训练方案包括自监督预训练阶段和监督对比学习的辅助学习。
- 自监督预训练阶段通过转化原始问题格式来预测相关问题。
- 对比学习阶段添加了屏蔽噪声,改进模型表现。
- 采用本地对齐注意力关注相关字幕句子的视频帧。
- 实验结果显示模型在相关测试集上取得了最先进的性能。
➡️