💡
原文中文,约2300字,阅读约需6分钟。
📝
内容提要
IBM发布了Granite-Docling-258M,这是一个开源视觉语言模型,专注于文档转换,能够准确提取表格、代码和公式,并生成结构化表示。与前版本相比,该模型在布局分析和OCR方面有显著提升,并支持多语言,旨在提高文档处理的效率和准确性。
🎯
关键要点
- IBM发布了Granite-Docling-258M,这是一个开源视觉语言模型,专注于文档转换。
- 该模型能够准确提取表格、代码和公式,并生成结构化表示。
- Granite-Docling在布局分析和OCR方面有显著提升,支持多语言。
- 模型在Hugging Face上发布,提供现场演示和适用于Apple Silicon的MLX构建。
- Granite-Docling是SmolDocling-256M的产品级后继产品,拥有2.58亿个参数。
- 模型在布局分析、全页OCR、代码、公式和表格方面显示出持续的准确率提升。
- Granite-Docling解决了预览模型中的不稳定性故障模式。
- 输出DocTags,旨在实现明确的文档结构,便于转换为Markdown/HTML/JSON。
- 模型在IBM的Blue Vela H100集群上进行训练,使用多种评估指标进行量化改进。
- Granite-Docling实验性地增加了对日语、阿拉伯语和中文的支持,英语仍为主要目标。
- Granite-Docling生成DocTags,保留表格拓扑、内联/浮动数学、代码块和标题。
- 模型可与Transformers、vLLM、ONNX和MLX配合使用,专用MLX版本针对Apple Silicon进行了优化。
- Granite-Docling通过提供更丰富的中间表示,降低推理成本和流程复杂性。
- 该模型标志着结构化文档AI领域的重大进步,结合了多种技术以提供企业级性能。
➡️