IBM发布Granite-Docling-258M,一款紧凑型视觉语言模型,用于精确的文档转换

IBM发布Granite-Docling-258M,一款紧凑型视觉语言模型,用于精确的文档转换

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

IBM研究推出了Granite-Docling-258M,这是一种开源视觉语言模型,专注于高保真文档转文本转换,能够保留复杂的布局和结构。尽管参数仅有2.58亿,但其准确性与更大模型相当,适合文档解析和数据集准备。该模型支持多语言,旨在与Docling库结合,优化企业文档工作流程。

🎯

关键要点

  • IBM研究推出Granite-Docling-258M,是一种开源视觉语言模型,专注于高保真文档转文本转换。
  • Granite-Docling仅有2.58亿参数,但准确性与更大模型相当,适合文档解析和数据集准备。
  • 该模型保留复杂的文档结构,包括数学符号、表格布局和代码块,适合检索增强生成(RAG)管道。
  • Granite-Docling基于SmolDocling-256M-preview,采用Granite 3架构和升级的视觉编码器SigLIP2。
  • 模型解决了之前的稳定性问题,如令牌重复和解析不完整,得益于改进的数据集过滤和注释清理。
  • 社区反应积极,认为该模型适合在设备上使用,低端手机也能实现本地推理。
  • Granite-Docling在标准文档理解数据集上的基准结果显示准确性、结构保真度和布局保留的一致改善。
  • DocTags是Granite-Docling性能的核心,提供结构化标记格式,描述每个页面元素及其空间和逻辑关系。
  • 模型引入了阿拉伯语、中文和日语的实验性多语言支持,未来将扩展全球语言覆盖。
  • Granite-Docling旨在与Docling库结合,提供可定制的文档转换管道和智能AI集成。
  • IBM计划推出更大的Granite-Docling模型(最多900M参数),扩展评估数据集,并在watsonx.ai中深入集成DocTags。
  • Granite-Docling-258M现已在Hugging Face上以Apache 2.0许可证发布。

延伸问答

Granite-Docling-258M的主要功能是什么?

Granite-Docling-258M是一款专注于高保真文档转文本转换的视觉语言模型,能够保留复杂的布局和结构。

Granite-Docling-258M与其他OCR系统有什么不同?

与典型的OCR系统不同,Granite-Docling是专门为文档解析而设计,能够保留文档的精确结构,而不仅仅是提取文本。

Granite-Docling-258M的参数数量是多少?

Granite-Docling-258M的参数数量为2.58亿。

Granite-Docling-258M支持哪些语言?

Granite-Docling-258M目前支持阿拉伯语、中文和日语的实验性多语言功能。

Granite-Docling-258M如何解决稳定性问题?

该模型通过改进的数据集过滤和注释清理,解决了令牌重复和解析不完整等稳定性问题。

Granite-Docling-258M的社区反馈如何?

社区反应积极,认为该模型适合在设备上使用,低端手机也能实现本地推理。

➡️

继续阅读