机器之心 ·

模态GAP不存在了？图文领域首个token级大一统基座诞生

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

上交联合美团推出了TokenIT和TokenFD，解决了细粒度文本图像理解的挑战。TokenIT是首个token级图文数据集，包含2000万图像和18亿Token-Mask对，支持细粒度对齐。TokenFD实现了视觉与语言的token级对齐，提升了多模态大模型性能，推动文档理解和图文检索的发展。

🎯

关键要点

上交联合美团推出TokenIT和TokenFD，解决细粒度文本图像理解的挑战。
TokenIT是首个token级图文数据集，包含2000万图像和18亿Token-Mask对，支持细粒度对齐。
TokenFD实现视觉与语言的token级对齐，提升多模态大模型性能，推动文档理解和图文检索的发展。
TokenIT数据集规模与多样性丰富，覆盖自然场景、文档、图表等多种文本图像类型。
TokenFD通过简化的token embedding layer实现视觉特征与语言特征的对齐，支持多任务。
TokenFD在文本分割、理解和检索等任务中显著提升性能，推动多模态大模型的发展。
TokenVL作为新型多模态大模型，基于TokenFD实现图文对齐预训练，提升文档理解能力。
TokenVL允许大语言模型直接参考图像内容，增强文本理解与推理的准确性。

🔎

延伸解读

TokenIT数据集的创新意义

TokenIT作为首个token级图文数据集，填补了细粒度文本图像理解的空白。其包含的2000万图像和18亿Token-Mask对，不仅提升了数据的多样性，还为多模态大模型提供了更丰富的语义信息。这一创新将推动相关领域的研究和应用，尤其是在文档解析和图文检索等任务中。

TokenFD的技术优势

TokenFD通过简化的token embedding layer实现视觉与语言的token级对齐，显著提升了多模态大模型的性能。与传统模型相比，TokenFD在文本分割、理解和检索等任务中表现出更高的准确性和效率。这种技术的突破为未来的多任务处理和商业化应用奠定了基础，尤其是在图像安全审查和知识检索等领域。

TokenVL的应用前景

TokenVL作为新型多模态大模型，利用TokenFD实现图文对齐预训练，极大提升了文档理解能力。其允许大语言模型直接参考图像内容，增强了文本理解与推理的准确性。这一特性使得TokenVL在实际应用中，尤其是在复杂文档处理和图文问答场景中，具有广阔的前景和潜力。

❓

延伸问答

TokenIT数据集的主要特点是什么？

TokenIT是首个token级图文数据集，包含2000万图像和18亿Token-Mask对，支持细粒度对齐，覆盖多种文本图像类型。

TokenFD如何提升多模态大模型的性能？

TokenFD通过实现视觉与语言的token级对齐，简化了token embedding layer，显著提升了文本分割、理解和检索等任务的性能。

TokenVL模型的创新之处是什么？

TokenVL基于TokenFD实现图文对齐预训练，允许大语言模型直接参考图像内容，增强文本理解与推理的准确性。

TokenIT和TokenFD的推出解决了哪些问题？

它们解决了细粒度文本图像理解的挑战，填补了现有数据集在细粒度语义监督方面的空白。

TokenFD在多任务支持方面的表现如何？

TokenFD在文本分割、理解和检索等任务中显著提升性能，Zero-Shot性能分别提升18.78%、1.48%和50.33%。

如何体验TokenIT和TokenFD的功能？

可以通过Hugging Face上的demo进行体验，支持图像内容查找和相似度匹配。

🏷️