DEV Community ·

Docling新款“SmolDocling-256M”震撼登场

💡 原文英文，约2100词，阅读约需8分钟。

📝

内容提要

SmolDocling-256M-preview是一个多模态图像文本转文本模型，支持高效文档转换，具备OCR、代码识别、公式和图表识别功能，兼容Docling文档，推理速度快。

🎯

🔎

SmolDocling-256M-preview作为多模态图像文本转文本模型，结合了OCR、代码和公式识别等功能，能够高效处理各种文档。这使得它在学术研究、技术文档和商业报告等领域具有广泛的应用潜力，尤其是在需要快速转换和提取信息的场景中。

该模型在A100 GPU上平均每页推理速度为0.35秒，显示出其高效的处理能力。这对于需要处理大量文档的用户来说，能够显著提高工作效率。然而，用户在使用时仍需考虑硬件配置对性能的影响，确保能够充分发挥模型的优势。

SmolDocling-256M-preview即将推出更好的图表识别和化学识别功能，这将进一步增强其在科学和技术文档处理中的应用能力。用户应关注这些更新，以便及时利用新功能提升工作效率。

❓

SmolDocling-256M是一个多模态图像文本转文本模型，支持高效文档转换，具备OCR、代码识别、公式和图表识别等功能。

该模型使用OCR（光学字符识别）功能，能够准确提取图像中的文本。

SmolDocling-256M与Docling文档完全兼容，支持无缝集成。

在A100 GPU上，SmolDocling-256M的平均推理速度为每页0.35秒。

该模型支持代码块、数学公式、图表和结构化表格等文档元素的识别。

即将推出更好的图表识别和化学识别功能，以及单次多页推理能力。

🏷️