跨模态对比正则化的干扰免疫表示学习用于改变字幕

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一个对抗干扰的表示学习网络,通过自监督方式相互关联两幅图像的通道并使不同的通道相互独立,从而在干扰下获得稳定的图像表示。然后,模型可以更好地相互作用,捕捉可靠的差异特征以生成描述语句。实验证明该方法在四个公共数据集上优于现有方法。

🎯

关键要点

  • 提出了一个对抗干扰的表示学习网络。

  • 通过自监督方式相互关联两幅图像的通道并使不同的通道相互独立。

  • 在干扰下获得稳定的图像表示。

  • 模型能够更好地相互作用,捕捉可靠的差异特征以生成描述语句。

  • 设计了一种跨模态对比正则化方法,最大化差异特征和生成的单词之间的对比对齐。

  • 实验证明该方法在四个公共数据集上优于现有方法。

➡️

继续阅读