Meta的版面恢复大模型:Nougat

Meta的版面恢复大模型:Nougat

💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

Nougat是一个用于学术文档的神经光学理解模型,可以识别文本、数学公式和表格,并以Markdown格式输出。模型使用了Swin Transformer和mBART。作者构建了一个训练数据集,收集了arXiv上的文章并转换为HTML5文件,然后转换为Mathpix Markdown格式。训练时使用了作者构建的数据集以及PMC和IDL数据集。Nougat的推断速度较慢,但精度较高。与Pix2Text相比,Nougat模型较大,但支持更多功能。P2T目前只能恢复段落级别的内容,未来计划完善版面恢复的全部功能。

🎯

关键要点

  • Nougat是一个用于学术文档的神经光学理解模型,能够识别文本、数学公式和表格,并以Markdown格式输出。
  • 模型使用Swin Transformer和mBART,具有较高的识别精度,但推断速度较慢。
  • Nougat通过端到端模型直接解析图片内容,忽略无法用纯文本表示的图形。
  • 模型架构包括20层的Swin Transformer作为编码器和mBART的解码器,发布了两个版本:0.1.0-base和0.1.0-small。
  • 作者构建了一个训练数据集,收集了1748201篇arXiv文章并转换为HTML5和Mathpix Markdown格式。
  • 训练数据集的构造过程复杂,涉及到分页和格式一致性的问题,可能导致模型在识别时出现错误。
  • 模型训练中引入了随机扰动以减少生成重复序列的情况,特别是对于域外文档。
  • Nougat的推断速度较慢,处理一页PDF需要8-10分钟,适合有高性能计算资源的用户。
  • 与Pix2Text相比,Nougat模型较大但功能更全面,Pix2Text目前仅支持段落级别的恢复,未来计划完善版面恢复功能。
  • P2T是一个开源工具,定位为“穷人”的版面恢复工具,使用小模型并不断优化精度。
➡️

继续阅读