LAPDoc:文档的布局感知提示
原文中文,约600字,阅读约需2分钟。发表于: 。最近,在大规模使用纯文本数据训练大型语言模型(LLMs)的研究进展中,出现了强大的在许多领域和任务中的泛化能力,包括特定于文档的任务。与此相反,有一种趋势是训练多模态转换器架构,专门为文档理解而设计,旨在将文本输入与相应的文档布局融合在一起。本文研究了使用纯文本 LLMs 进行特定于文档任务的可能性,通过使用布局增强的方式。我们探索了插入修改和基于规则的方法,以将纯文本 LLM...
最近,研究发现纯文本语言模型(LLMs)在许多领域和任务中具有强大的泛化能力。本文研究了使用纯文本 LLMs 进行特定于文档任务的可能性,并通过布局增强的方式提高了性能。实验证明,通过布局增强,纯文本 LLMs 在文档理解方面的性能可以提高多达15%。在选择最佳模型时,应考虑这种方法。