模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

上交联合美团推出了TokenIT和TokenFD,解决了细粒度文本图像理解的挑战。TokenIT是首个token级图文数据集,包含2000万图像和18亿Token-Mask对,支持细粒度对齐。TokenFD实现了视觉与语言的token级对齐,提升了多模态大模型性能,推动文档理解和图文检索的发展。

🎯

关键要点

  • 上交联合美团推出TokenIT和TokenFD,解决细粒度文本图像理解的挑战。
  • TokenIT是首个token级图文数据集,包含2000万图像和18亿Token-Mask对,支持细粒度对齐。
  • TokenFD实现视觉与语言的token级对齐,提升多模态大模型性能,推动文档理解和图文检索的发展。
  • TokenIT数据集规模与多样性丰富,覆盖自然场景、文档、图表等多种文本图像类型。
  • TokenFD通过简化的token embedding layer实现视觉特征与语言特征的对齐,支持多任务。
  • TokenFD在文本分割、理解和检索等任务中显著提升性能,推动多模态大模型的发展。
  • TokenVL作为新型多模态大模型,基于TokenFD实现图文对齐预训练,提升文档理解能力。
  • TokenVL允许大语言模型直接参考图像内容,增强文本理解与推理的准确性。

延伸问答

TokenIT数据集的主要特点是什么?

TokenIT是首个token级图文数据集,包含2000万图像和18亿Token-Mask对,支持细粒度对齐,覆盖多种文本图像类型。

TokenFD如何提升多模态大模型的性能?

TokenFD通过实现视觉与语言的token级对齐,简化了token embedding layer,显著提升了文本分割、理解和检索等任务的性能。

TokenVL模型的创新之处是什么?

TokenVL基于TokenFD实现图文对齐预训练,允许大语言模型直接参考图像内容,增强文本理解与推理的准确性。

TokenIT和TokenFD的推出解决了哪些问题?

它们解决了细粒度文本图像理解的挑战,填补了现有数据集在细粒度语义监督方面的空白。

TokenFD在多任务支持方面的表现如何?

TokenFD在文本分割、理解和检索等任务中显著提升性能,Zero-Shot性能分别提升18.78%、1.48%和50.33%。

如何体验TokenIT和TokenFD的功能?

可以通过Hugging Face上的demo进行体验,支持图像内容查找和相似度匹配。

➡️

继续阅读