面向对象感知的自适应正性学习用于音频 - 视觉问答
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的多项选择视频问题回答的训练方案,包括自监督预训练和监督对比学习。实验结果表明该模型在相关测试集上取得了最先进的性能。
🎯
关键要点
-
介绍了一种新的多项选择视频问题回答的训练方案。
-
训练方案包括自监督预训练阶段和监督对比学习的辅助学习。
-
自监督预训练阶段通过转化原始问题格式来预测相关问题。
-
对比学习阶段添加了屏蔽噪声,改进模型表现。
-
采用本地对齐注意力关注相关字幕句子的视频帧。
-
实验结果显示模型在相关测试集上取得了最先进的性能。
➡️