IBM AI 发布 Granite-Docling-258M:一个开源、企业级文档 AI 模型

IBM AI 发布 Granite-Docling-258M:一个开源、企业级文档 AI 模型

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

IBM发布了Granite-Docling-258M,这是一个开源视觉语言模型,专注于文档转换,能够准确提取表格、代码和公式,并生成结构化表示。与前版本相比,该模型在布局分析和OCR方面有显著提升,并支持多语言,旨在提高文档处理的效率和准确性。

🎯

关键要点

  • IBM发布了Granite-Docling-258M,这是一个开源视觉语言模型,专注于文档转换。
  • 该模型能够准确提取表格、代码和公式,并生成结构化表示。
  • Granite-Docling在布局分析和OCR方面有显著提升,支持多语言。
  • 模型在Hugging Face上发布,提供现场演示和适用于Apple Silicon的MLX构建。
  • Granite-Docling是SmolDocling-256M的产品级后继产品,拥有2.58亿个参数。
  • 模型在布局分析、全页OCR、代码、公式和表格方面显示出持续的准确率提升。
  • Granite-Docling解决了预览模型中的不稳定性故障模式。
  • 输出DocTags,旨在实现明确的文档结构,便于转换为Markdown/HTML/JSON。
  • 模型在IBM的Blue Vela H100集群上进行训练,使用多种评估指标进行量化改进。
  • Granite-Docling实验性地增加了对日语、阿拉伯语和中文的支持,英语仍为主要目标。
  • Granite-Docling生成DocTags,保留表格拓扑、内联/浮动数学、代码块和标题。
  • 模型可与Transformers、vLLM、ONNX和MLX配合使用,专用MLX版本针对Apple Silicon进行了优化。
  • Granite-Docling通过提供更丰富的中间表示,降低推理成本和流程复杂性。
  • 该模型标志着结构化文档AI领域的重大进步,结合了多种技术以提供企业级性能。

延伸问答

Granite-Docling-258M的主要功能是什么?

Granite-Docling-258M是一个开源视觉语言模型,专注于文档转换,能够准确提取表格、代码和公式,并生成结构化表示。

Granite-Docling与SmolDocling有什么区别?

Granite-Docling是SmolDocling-256M的产品级后继产品,采用了更强大的Granite 165M语言模型和升级的视觉编码器,具有更高的准确率和稳定性。

Granite-Docling支持哪些语言?

Granite-Docling实验性地增加了对日语、阿拉伯语和中文的支持,但英语仍为主要目标。

Granite-Docling如何提高文档处理的效率?

该模型通过生成DocTags来保留文档结构,降低推理成本和流程复杂性,从而提高文档处理的效率和准确性。

Granite-Docling的训练环境是什么?

Granite-Docling在IBM的Blue Vela H100集群上进行训练,使用多种评估指标进行量化改进。

Granite-Docling的输出格式是什么?

Granite-Docling输出DocTags,这是一种结构化语法,旨在实现明确的文档结构,便于转换为Markdown、HTML或JSON格式。

➡️

继续阅读