跨模态对比正则化的干扰免疫表示学习用于改变字幕
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一个对抗干扰的表示学习网络,通过自监督方式相互关联两幅图像的通道并使不同的通道相互独立,从而在干扰下获得稳定的图像表示。然后,模型可以更好地相互作用,捕捉可靠的差异特征以生成描述语句。实验证明该方法在四个公共数据集上优于现有方法。
🎯
关键要点
-
提出了一个对抗干扰的表示学习网络。
-
通过自监督方式相互关联两幅图像的通道并使不同的通道相互独立。
-
在干扰下获得稳定的图像表示。
-
模型能够更好地相互作用,捕捉可靠的差异特征以生成描述语句。
-
设计了一种跨模态对比正则化方法,最大化差异特征和生成的单词之间的对比对齐。
-
实验证明该方法在四个公共数据集上优于现有方法。
➡️