本文介绍了一种名为推理模块网络(RMN)的视觉推理方法,用于视频字幕生成。RMN包括三个时空推理模块和一个动态离散模块选择器。实验证明,RMN方法在MSVD和MSR-VTT数据集上优于现有方法,并提供了明确和可解释的生成过程。
本文提出了一种名为推理模块网络(RMN)的视觉推理方法,用于视频字幕生成的推理能力。RMN包括三个时空推理模块和一个动态离散模块选择器。实验结果表明,RMN方法优于现有方法,同时提供了明确和可解释的生成过程。
完成下面两步后,将自动完成登录并继续当前操作。