InfoQ ·

IBM发布Granite-Docling-258M，一款紧凑型视觉语言模型，用于精确的文档转换

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

IBM研究推出了Granite-Docling-258M，这是一种开源视觉语言模型，专注于高保真文档转文本转换，能够保留复杂的布局和结构。尽管参数仅有2.58亿，但其准确性与更大模型相当，适合文档解析和数据集准备。该模型支持多语言，旨在与Docling库结合，优化企业文档工作流程。

🎯

🔎

Granite-Docling-258M专为文档解析设计，能够保留复杂的文档结构，如数学符号和表格布局。这使其在需要高保真度的文档转换场景中表现出色，尤其适合企业文档工作流程和数据集准备。相比传统OCR系统，该模型在准确性和效率上具有明显优势，适合低端设备使用。

Granite-Docling引入了阿拉伯语、中文和日语的实验性多语言支持，标志着其全球化发展的重要一步。尽管这些功能仍处于早期阶段，但未来的版本将致力于扩展语言覆盖，满足不同地区用户的需求，提升其在国际市场的竞争力。

DocTags作为Granite-Docling性能的核心，提供了结构化标记格式，能够清晰描述页面元素及其关系。这种明确的标记方式使得模型能够有效分离内容与结构，生成紧凑且易于机器读取的输出，适合多种格式转换，提升了文档处理的灵活性和效率。

❓

Granite-Docling-258M是一款开源视觉语言模型，专注于高保真文档转文本转换，能够保留复杂的布局和结构。

尽管只有2.58亿参数，Granite-Docling的准确性与更大模型相当，提供了成本和效率上的优势。

该模型能够保留数学符号、表格布局和代码块等复杂文档结构，适合检索增强生成管道。

该模型引入了阿拉伯语、中文和日语的实验性多语言支持，未来将扩展全球语言覆盖。

Granite-Docling的核心技术是DocTags，一种结构化标记格式，描述每个页面元素及其空间和逻辑关系。

IBM计划推出更大的Granite-Docling模型，扩展评估数据集，并在watsonx.ai中深入集成DocTags。

🏷️