内容提要
上交联合美团推出了TokenIT和TokenFD,解决了细粒度文本图像理解的挑战。TokenIT是首个token级图文数据集,包含2000万图像和18亿Token-Mask对,支持细粒度对齐。TokenFD实现了视觉与语言的token级对齐,提升了多模态大模型性能,推动文档理解和图文检索的发展。
关键要点
-
上交联合美团推出TokenIT和TokenFD,解决细粒度文本图像理解的挑战。
-
TokenIT是首个token级图文数据集,包含2000万图像和18亿Token-Mask对,支持细粒度对齐。
-
TokenFD实现视觉与语言的token级对齐,提升多模态大模型性能,推动文档理解和图文检索的发展。
-
TokenIT数据集规模与多样性丰富,覆盖自然场景、文档、图表等多种文本图像类型。
-
TokenFD通过简化的token embedding layer实现视觉特征与语言特征的对齐,支持多任务。
-
TokenFD在文本分割、理解和检索等任务中显著提升性能,推动多模态大模型的发展。
-
TokenVL作为新型多模态大模型,基于TokenFD实现图文对齐预训练,提升文档理解能力。
-
TokenVL允许大语言模型直接参考图像内容,增强文本理解与推理的准确性。
延伸问答
TokenIT数据集的主要特点是什么?
TokenIT是首个token级图文数据集,包含2000万图像和18亿Token-Mask对,支持细粒度对齐,覆盖多种文本图像类型。
TokenFD如何提升多模态大模型的性能?
TokenFD通过实现视觉与语言的token级对齐,简化了token embedding layer,显著提升了文本分割、理解和检索等任务的性能。
TokenVL模型的创新之处是什么?
TokenVL基于TokenFD实现图文对齐预训练,允许大语言模型直接参考图像内容,增强文本理解与推理的准确性。
TokenIT和TokenFD的推出解决了哪些问题?
它们解决了细粒度文本图像理解的挑战,填补了现有数据集在细粒度语义监督方面的空白。
TokenFD在多任务支持方面的表现如何?
TokenFD在文本分割、理解和检索等任务中显著提升性能,Zero-Shot性能分别提升18.78%、1.48%和50.33%。
如何体验TokenIT和TokenFD的功能?
可以通过Hugging Face上的demo进行体验,支持图像内容查找和相似度匹配。