增强的视觉问答：卷积的比较分析与文本特征提取

本研究论文比较了复杂的文本模型和简单的局部文本特征模型在 VQA 中的效果，并发现采用复杂的文本编码器并不总是最优的选择。基于这一发现，论文提出了一种改进的模型 ConvGRU，通过引入卷积层增强了问题文本的表示，在 VQA-v2 数据集上实现了更好的性能而不显著增加参数复杂性。

本研究使用GANs、自编码器和注意力机制改进了视觉问答（VQA）。研究发现，GAN-based方法能够生成与图像和问题相关的答案嵌入，但在处理复杂任务时存在困难。相比之下，基于自编码器的技术能够学习问题和图像的最佳嵌入，结果与GAN-based方法相媲美。注意力机制结合多模态紧凑双线性池化（MCB）来解决语言先验和注意力建模问题，但需要权衡复杂性和性能。研究提出了未来研究方向，包括替代GAN的形式和注意力机制。

GANs 卷积多模态紧凑双线性池化注意力机制自编码器视觉问答