教师引导的组合视觉推理的多模态表示

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种名为推理模块网络(RMN)的视觉推理方法,用于视频字幕生成的推理能力。RMN包括三个时空推理模块和一个动态离散模块选择器。实验结果表明,RMN方法优于现有方法,同时提供了明确和可解释的生成过程。

🎯

关键要点

  • 提出了一种名为推理模块网络(RMN)的视觉推理方法。

  • RMN旨在为现有的编码器-解码器框架提供视频字幕生成的推理能力。

  • RMN包括三个复杂的时空推理模块和一个动态离散模块选择器。

  • 动态离散模块选择器由Gumbel估算法训练。

  • 在MSVD和MSR-VTT数据集上的实验表明,RMN方法优于现有方法。

  • RMN提供了明确和可解释的生成过程。

➡️

继续阅读