Docling新款“SmolDocling-256M”震撼登场

Docling新款“SmolDocling-256M”震撼登场

💡 原文英文,约2100词,阅读约需8分钟。
📝

内容提要

SmolDocling-256M-preview是一个多模态图像文本转文本模型,支持高效文档转换,具备OCR、代码识别、公式和图表识别功能,兼容Docling文档,推理速度快。

🎯

关键要点

  • SmolDocling-256M-preview是一个多模态图像文本转文本模型,旨在高效文档转换。
  • 该模型保留了Docling的热门功能,并与Docling文档完全兼容。
  • 引入DocTags以实现高效的文档标记。
  • 具备OCR(光学字符识别)功能,能够准确提取图像中的文本。
  • 支持文档结构和元素边界框的布局和定位。
  • 能够识别和格式化代码块,包括缩进。
  • 识别和处理数学表达式的公式识别功能。
  • 提取和解释图表数据的图表识别功能。
  • 支持结构化表格提取的表格识别功能。
  • 区分图形和图形元素的图形分类功能。
  • 将标题与相关图像和图形链接的标题对应功能。
  • 正确组织和结构化列表元素的列表分组功能。
  • 处理整个页面的全面文档转换,包括所有页面元素(代码、方程、表格、图表等)。
  • 使用边界框进行OCR区域识别。
  • 经过训练以处理科学和非科学文档的一般文档处理功能。
  • 无缝集成Docling,支持多种格式的导入和导出。
  • 在A100 GPU上平均每页推理速度为0.35秒。
  • 即将推出更好的图表识别和化学识别功能。
  • 支持单次多页推理。

延伸问答

SmolDocling-256M的主要功能是什么?

SmolDocling-256M是一个多模态图像文本转文本模型,支持高效文档转换,具备OCR、代码识别、公式和图表识别等功能。

SmolDocling-256M如何处理图像中的文本?

该模型使用OCR(光学字符识别)功能,能够准确提取图像中的文本。

SmolDocling-256M与Docling文档的兼容性如何?

SmolDocling-256M与Docling文档完全兼容,支持无缝集成。

SmolDocling-256M的推理速度是多少?

在A100 GPU上,SmolDocling-256M的平均推理速度为每页0.35秒。

SmolDocling-256M支持哪些文档元素的识别?

该模型支持代码块、数学公式、图表和结构化表格等文档元素的识别。

SmolDocling-256M的未来功能有哪些?

即将推出更好的图表识别和化学识别功能,以及单次多页推理能力。

➡️

继续阅读