文档理解的长程 Transformer 架构
原文约500字/词,阅读约需2分钟。发表于: 。自从发布以来,Transformer 已经在许多领域中进行了革命,从自然语言理解到计算机视觉。然而,自注意力操作的计算复杂性限制了其处理大序列的能力。本文探讨了多种策略,以将基于 Transformer 的模型应用于长篇多页文档的情况。我们引入了两种新的多模态(文本 + 布局)长程模型,它们基于针对长序列的高效 Transformer...
本文介绍了两种基于Transformer的多模态长程模型,可应用于长篇多页文档。相对的2D注意力在密集文本上对普通和长程模型均有效。在信息检索方面,对于多页商业文档,可以在较小的序列上带来小幅性能提升。