基于检测的视觉问答中间监督
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了一种名为推理模块网络(RMN)的视觉推理方法,用于视频字幕生成。RMN包括三个时空推理模块和一个动态离散模块选择器。实验证明,RMN方法在MSVD和MSR-VTT数据集上优于现有方法,并提供了明确和可解释的生成过程。
🎯
关键要点
- 提出了一种名为推理模块网络 (RMN) 的视觉推理方法。
- RMN 旨在为现有的编码器 - 解码器框架提供视频字幕生成的推理能力。
- RMN 包括三个复杂的时空推理模块和一个动态离散模块选择器。
- 动态模块选择器由 Gumbel 估算法训练。
- 在 MSVD 和 MSR-VTT 数据集上的实验表明 RMN 方法优于现有方法。
- RMN 提供了一个明确和可解释的生成过程。
➡️