小红花·文摘

本文介绍了多种文档理解模型的进展，包括SynthTIGER、DSPS、GenDoc、DocFormerv2、TransferDoc和InstructDoc等。这些模型通过结合不同技术，提升了文本图像生成和文档理解的性能，解决了数据不足和长尾问题。同时，研究探讨了大语言模型与图像生成模型的结合，提出了ViTLP模型，以优化文本和布局建模，显著提高了文档理解能力。