小红花·文摘

ECCV 2024 - 基于文本到图像扩散模型的开放词汇3D语义分割

DEV Community ·

本文介绍了多种文档理解模型的进展，包括SynthTIGER、DSPS、GenDoc、DocFormerv2、TransferDoc和InstructDoc等。这些模型通过结合不同技术，提升了文本图像生成和文档理解的性能，解决了数据不足和长尾问题。同时，研究探讨了大语言模型与图像生成模型的结合，提出了ViTLP模型，以优化文本和布局建模，显著提高了文档理解能力。

SynthDoc: 用于视觉文档理解的双语文档合成

BriefGPT - AI 论文速递 ·