Nougat是一个用于学术文档的神经光学理解模型,可以识别文本、数学公式和表格,并以Markdown格式输出。模型使用了Swin Transformer和mBART。作者构建了一个训练数据集,收集了arXiv上的文章并转换为HTML5文件,然后转换为Mathpix Markdown格式。训练时使用了作者构建的数据集以及PMC和IDL数据集。Nougat的推断速度较慢,但精度较高。与Pix2Text相比,Nougat模型较大,但支持更多功能。P2T目前只能恢复段落级别的内容,未来计划完善版面恢复的全部功能。
完成下面两步后,将自动完成登录并继续当前操作。