NotionNext BLOG ·

Meta的版面恢复大模型：Nougat

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

Nougat是一个用于学术文档的神经光学理解模型，可以识别文本、数学公式和表格，并以Markdown格式输出。模型使用了Swin Transformer和mBART。作者构建了一个训练数据集，收集了arXiv上的文章并转换为HTML5文件，然后转换为Mathpix Markdown格式。训练时使用了作者构建的数据集以及PMC和IDL数据集。Nougat的推断速度较慢，但精度较高。与Pix2Text相比，Nougat模型较大，但支持更多功能。P2T目前只能恢复段落级别的内容，未来计划完善版面恢复的全部功能。

🎯

关键要点

Nougat是一个用于学术文档的神经光学理解模型，能够识别文本、数学公式和表格，并以Markdown格式输出。
模型使用Swin Transformer和mBART，具有较高的识别精度，但推断速度较慢。
Nougat通过端到端模型直接解析图片内容，忽略无法用纯文本表示的图形。
模型架构包括20层的Swin Transformer作为编码器和mBART的解码器，发布了两个版本：0.1.0-base和0.1.0-small。
作者构建了一个训练数据集，收集了1748201篇arXiv文章并转换为HTML5和Mathpix Markdown格式。
训练数据集的构造过程复杂，涉及到分页和格式一致性的问题，可能导致模型在识别时出现错误。
模型训练中引入了随机扰动以减少生成重复序列的情况，特别是对于域外文档。
Nougat的推断速度较慢，处理一页PDF需要8-10分钟，适合有高性能计算资源的用户。
与Pix2Text相比，Nougat模型较大但功能更全面，Pix2Text目前仅支持段落级别的恢复，未来计划完善版面恢复功能。
P2T是一个开源工具，定位为“穷人”的版面恢复工具，使用小模型并不断优化精度。

🏷️

继续阅读

2026深度评测：DeepSeek V4 vs ChatGPT 5.5 大模型选型全指南
2026年，DeepSeek V4与ChatGPT 5.5在大模型领域竞争激烈。DeepSeek V4具备1M令牌上下文窗口，适合长文本处理，性价比高；而...
Meta不允许你在Threads上屏蔽其AI账户
Meta正在测试一个新功能，允许用户在Threads上标记Meta AI账户以获取问题答案。用户对无法完全屏蔽该AI账户表示不满。Meta在AI领域投入巨...
Meta将通知家长他们的青少年何时在Instagram算法中添加新兴趣
Meta将推出新功能，允许家长查看青少年在Instagram上的兴趣主题，如“篮球”或“时尚”。同时，Meta将把所有应用的家长控制整合到Family C...
在Meta规模下迁移数据摄取系统
Meta最近对其数据摄取系统进行了重大改造，采用自管理的数据仓库服务，成功迁移了所有工作负载。团队建立了清晰的迁移生命周期，确保数据完整性和操作可靠性，并...
Windows本地部署大模型 Ollama + OpenWebUI 最佳实践指南
本文介绍了如何在Windows上本地部署大模型Ollama和OpenWebUI，用户可以在本地运行Llama 3等模型，确保数据隐私、零成本推理和离线使用...
.NET 11 Preview 4 正式发布：Runtime-Async 全面启用、Process API 大幅扩展 - 张善友
微软于2026年5月12日发布了.NET 11的第四个预览版，新增异步模型、进程管理API、AI集成和向量搜索等功能。新版本简化了进程调用代码，提供高效的...

Meta的版面恢复大模型：Nougat

内容提要

关键要点

标签

继续阅读