内容提要
IBM研究推出了Granite-Docling-258M,这是一种开源视觉语言模型,专注于高保真文档转文本转换,能够保留复杂的布局和结构。尽管参数仅有2.58亿,但其准确性与更大模型相当,适合文档解析和数据集准备。该模型支持多语言,旨在与Docling库结合,优化企业文档工作流程。
关键要点
-
IBM研究推出Granite-Docling-258M,是一种开源视觉语言模型,专注于高保真文档转文本转换。
-
Granite-Docling仅有2.58亿参数,但准确性与更大模型相当,适合文档解析和数据集准备。
-
该模型保留复杂的文档结构,包括数学符号、表格布局和代码块,适合检索增强生成(RAG)管道。
-
Granite-Docling基于SmolDocling-256M-preview,采用Granite 3架构和升级的视觉编码器SigLIP2。
-
模型解决了之前的稳定性问题,如令牌重复和解析不完整,得益于改进的数据集过滤和注释清理。
-
社区反应积极,认为该模型适合在设备上使用,低端手机也能实现本地推理。
-
Granite-Docling在标准文档理解数据集上的基准结果显示准确性、结构保真度和布局保留的一致改善。
-
DocTags是Granite-Docling性能的核心,提供结构化标记格式,描述每个页面元素及其空间和逻辑关系。
-
模型引入了阿拉伯语、中文和日语的实验性多语言支持,未来将扩展全球语言覆盖。
-
Granite-Docling旨在与Docling库结合,提供可定制的文档转换管道和智能AI集成。
-
IBM计划推出更大的Granite-Docling模型(最多900M参数),扩展评估数据集,并在watsonx.ai中深入集成DocTags。
-
Granite-Docling-258M现已在Hugging Face上以Apache 2.0许可证发布。
延伸问答
Granite-Docling-258M的主要功能是什么?
Granite-Docling-258M是一款开源视觉语言模型,专注于高保真文档转文本转换,能够保留复杂的布局和结构。
Granite-Docling-258M与其他模型相比有什么优势?
尽管只有2.58亿参数,Granite-Docling的准确性与更大模型相当,提供了成本和效率上的优势。
Granite-Docling-258M如何处理复杂文档结构?
该模型能够保留数学符号、表格布局和代码块等复杂文档结构,适合检索增强生成管道。
Granite-Docling-258M支持哪些语言?
该模型引入了阿拉伯语、中文和日语的实验性多语言支持,未来将扩展全球语言覆盖。
Granite-Docling-258M的核心技术是什么?
Granite-Docling的核心技术是DocTags,一种结构化标记格式,描述每个页面元素及其空间和逻辑关系。
IBM对Granite-Docling-258M的未来计划是什么?
IBM计划推出更大的Granite-Docling模型,扩展评估数据集,并在watsonx.ai中深入集成DocTags。