InfoQ ·

Mistral AI推出基于大语言模型的多模态文档OCR API

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

Mistral OCR是一种高效的OCR解决方案，能够数字化复杂文档，支持文本、图像和表格等多种元素，适合多模态文档处理。其性能优于其他主流OCR工具，支持多语言解析，并能提取嵌入图像。使用Python时，可通过mistralai包进行文件上传和处理，API限制为50MB或1000页。

🎯

🔎

Mistral OCR的设计使其特别适合处理复杂的多模态文档，如科学研究和历史文献。其能够同时理解文本、图像和表格，提供更全面的数字化解决方案，适合需要高精度和多样化输出的用户。

根据Mistral的基准测试，Mistral OCR在性能上优于Google Document AI和Azure OCR等主流工具。这意味着在选择OCR解决方案时，用户可以考虑Mistral OCR作为更高效的替代方案，尤其是在处理复杂文档时。

Mistral OCR API对文件大小和页数有严格限制，最大为50MB或1000页。用户在使用时需注意这些限制，以确保文件能够顺利处理。此外，API的使用需要通过Python的mistralai包进行身份验证，增加了使用的复杂性。

❓

Mistral OCR能够数字化复杂文档，包括文本、图像、表格和数学表达式，支持多模态文档处理。

根据基准测试，Mistral OCR的性能优于Google Document AI和Azure OCR等主流OCR工具。

可以通过安装mistralai包来使用Mistral OCR API，支持文件上传和处理。

Mistral OCR支持解析、理解和转录数千种脚本、字体和语言。

API限制为50MB或1000页，价格为每1000页/美元或每2000页/美元（批量OCR）。

Mistral OCR可以每分钟处理多达2000页的文档。

🏷️