北极-TILT:亚十亿规模的商务文档理解

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

Transformer在多领域中革命,但自注意力操作的计算复杂性限制了其处理大序列的能力。本文介绍了两种新的多模态长程模型,可有效处理整个文档,对文档长度不敏感。与LayoutLM相比,这些模型在信息检索方面有小幅性能提升。2D相对注意力偏置在密集文本上对普通和长程模型均有效。

🎯

关键要点

  • Transformer在多个领域中引发了革命,但自注意力操作的计算复杂性限制了其处理大序列的能力。
  • 本文介绍了两种新的多模态长程模型,能够有效处理整个文档,对文档长度不敏感。
  • 与LayoutLM相比,这些新模型在信息检索方面有小幅性能提升。
  • 提出了2D相对注意力偏置,以引导自注意力指向相关标记,同时保持模型效率。
  • 在多页商业文档的信息检索中,较小的序列可以带来小幅性能提升。
  • 相对的2D注意力在密集文本上对普通和长程模型均有效。
➡️

继续阅读