CMAL:一种新颖的跨模态关联学习框架用于视觉-语言预训练

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究提出了CMAL框架,通过锚点检测和跨模态学习增强视觉与文本的互动。新的自监督任务使CMAL在多个视觉语言任务中表现出色,尤其在SNLI-VE和REC数据集上取得了最佳成绩。

🎯

关键要点

  • 本研究提出了CMAL框架,旨在增强视觉与文本的互动。
  • CMAL框架利用锚点检测和跨模态关联学习。
  • 新自监督任务使CMAL在多个视觉-语言任务中表现出色。
  • CMAL在SNLI-VE和REC数据集上取得了最佳成绩。
➡️

继续阅读