视觉和语言编码器是否相似地代表世界?

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

通过使用Centered Kernel Alignment (CKA)分析图像字幕基准上视觉和语言模型的潜在空间结构,发现不对齐和对齐的编码器的表示空间在语义上是相似的。提出了两种方法,一种是快速二次分配问题优化,一种是基于新颖局部CKA度量的匹配/检索。在跨语言、跨域字幕匹配和图像分类等任务上展示了其有效性。

🎯

关键要点

  • 使用Centered Kernel Alignment (CKA)分析图像字幕基准上视觉和语言模型的潜在空间结构。
  • 发现不对齐和对齐的编码器的表示空间在语义上是相似的。
  • 展示了在无统计相似性的情况下,可能匹配不对齐编码器而无需任何训练。
  • 提出了两种方法:快速二次分配问题优化和基于新颖局部CKA度量的匹配/检索。
  • 在跨语言、跨域字幕匹配和图像分类等任务上展示了方法的有效性。
➡️

继续阅读