M^2-Encoder: 大规模高效预训练推动双语图像 - 文本理解

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了一个包含60亿个图像-文本配对的双语数据集BM-6B,并提出了一种新的分组聚合方法来处理此规模的数据集。通过预训练双语图像-文本基础模型,取得了在多模态检索和分类任务方面的成果,并在零样本分类设置下,在ImageNet上的top-1准确率超过了以前报道的SoTA方法。

🎯

关键要点

  • 介绍了一个包含60亿个图像-文本配对的双语数据集BM-6B。
  • 提出了一种新颖的分组聚合方法,减少了通信开销和GPU内存需求。
  • 提高了训练速度,预训练了一系列双语图像-文本基础模型。
  • 在多模态检索和分类任务方面树立了新的基准。
  • 最大模型在零样本分类设置下,在ImageNet上的top-1准确率超过了以前报道的SoTA方法2.2%和21.1%。
➡️

继续阅读