内容提要
IBM发布了Granite-Docling-258M,这是一个开源视觉语言模型,专注于文档转换,能够准确提取表格、代码和公式,并生成结构化表示。与前版本相比,该模型在布局分析和OCR方面有显著提升,并支持多语言,旨在提高文档处理的效率和准确性。
关键要点
-
IBM发布了Granite-Docling-258M,这是一个开源视觉语言模型,专注于文档转换。
-
该模型能够准确提取表格、代码和公式,并生成结构化表示。
-
Granite-Docling在布局分析和OCR方面有显著提升,支持多语言。
-
模型在Hugging Face上发布,提供现场演示和适用于Apple Silicon的MLX构建。
-
Granite-Docling是SmolDocling-256M的产品级后继产品,拥有2.58亿个参数。
-
模型在布局分析、全页OCR、代码、公式和表格方面显示出持续的准确率提升。
-
Granite-Docling解决了预览模型中的不稳定性故障模式。
-
输出DocTags,旨在实现明确的文档结构,便于转换为Markdown/HTML/JSON。
-
模型在IBM的Blue Vela H100集群上进行训练,使用多种评估指标进行量化改进。
-
Granite-Docling实验性地增加了对日语、阿拉伯语和中文的支持,英语仍为主要目标。
-
Granite-Docling生成DocTags,保留表格拓扑、内联/浮动数学、代码块和标题。
-
模型可与Transformers、vLLM、ONNX和MLX配合使用,专用MLX版本针对Apple Silicon进行了优化。
-
Granite-Docling通过提供更丰富的中间表示,降低推理成本和流程复杂性。
-
该模型标志着结构化文档AI领域的重大进步,结合了多种技术以提供企业级性能。
延伸问答
Granite-Docling-258M的主要功能是什么?
Granite-Docling-258M是一个开源视觉语言模型,专注于文档转换,能够准确提取表格、代码和公式,并生成结构化表示。
Granite-Docling与SmolDocling相比有哪些改进?
Granite-Docling在布局分析、OCR、代码和公式识别方面有显著提升,并解决了不稳定性故障模式。
Granite-Docling支持哪些语言?
Granite-Docling实验性地支持日语、阿拉伯语和中文,英语仍为主要目标。
Granite-Docling如何提高文档处理的效率?
通过生成DocTags,Granite-Docling保留文档结构,降低推理成本和流程复杂性,从而提高文档处理的效率。
Granite-Docling的训练环境是什么?
Granite-Docling在IBM的Blue Vela H100集群上进行训练,使用多种评估指标进行量化改进。
Granite-Docling的输出格式是什么?
Granite-Docling输出DocTags,这是一种结构化语法,旨在转换为Markdown、HTML或JSON格式。