💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

IBM研究推出了Granite-Docling-258M,这是一种开源视觉语言模型,专注于高保真文档转文本转换,能够保留复杂的布局和结构。尽管参数仅有2.58亿,但其准确性与更大模型相当,适合文档解析和数据集准备。该模型支持多语言,旨在与Docling库结合,优化企业文档工作流程。

🎯

关键要点

  • IBM研究推出Granite-Docling-258M,是一种开源视觉语言模型,专注于高保真文档转文本转换。
  • Granite-Docling仅有2.58亿参数,但准确性与更大模型相当,适合文档解析和数据集准备。
  • 该模型保留复杂的文档结构,包括数学符号、表格布局和代码块,适合检索增强生成(RAG)管道。
  • Granite-Docling基于SmolDocling-256M-preview,采用Granite 3架构和升级的视觉编码器SigLIP2。
  • 模型解决了之前的稳定性问题,如令牌重复和解析不完整,得益于改进的数据集过滤和注释清理。
  • 社区反应积极,认为该模型适合在设备上使用,低端手机也能实现本地推理。
  • Granite-Docling在标准文档理解数据集上的基准结果显示准确性、结构保真度和布局保留的一致改善。
  • DocTags是Granite-Docling性能的核心,提供结构化标记格式,描述每个页面元素及其空间和逻辑关系。
  • 模型引入了阿拉伯语、中文和日语的实验性多语言支持,未来将扩展全球语言覆盖。
  • Granite-Docling旨在与Docling库结合,提供可定制的文档转换管道和智能AI集成。
  • IBM计划推出更大的Granite-Docling模型(最多900M参数),扩展评估数据集,并在watsonx.ai中深入集成DocTags。
  • Granite-Docling-258M现已在Hugging Face上以Apache 2.0许可证发布。
➡️

继续阅读