Pix2Text (P2T) 新版公式检测模型

Pix2Text (P2T) 新版公式检测模型

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

Pix2Text (P2T)是一个免费的开源Python替代Mathpix的工具,现在可以识别包含文本和公式的图像。它使用开源工具来检测数学公式的位置并识别文本。最新更新包括添加了混合图像和纯公式图像以提高识别效果。新模型在中文图像和窄纯公式图像的公式检测方面显示出改进。YoloV7模型将提供给CnOCR/CnSTD私人群组。不同版本的模型将提供给P2T网页版、付费用户和所有用户免费使用。

🎯

关键要点

  • Pix2Text (P2T) 是一个免费的开源 Python 替代工具,支持识别包含文字和公式的混合图片。
  • P2T 使用开源工具检测数学公式位置,并通过 LaTeX 表示,合并识别结果。
  • 数学公式检测模型更新是基于 CnSTD 项目,P2T 只是调用该模型。
  • 新标注的数据主要关注中文文字的混合图片,增加了对纯公式图片的支持。
  • 新模型在中文图片和窄纯公式图片的检测效果明显优于之前的模型。
  • YoloV7 模型将开放给 CnOCR/CnSTD 私享群,未来会对其他用户开放。
  • 不同版本的模型将遵循特定的使用逻辑,最新模型供网页版和付费用户使用,次新模型对会员开放,次次新模型免费开放。
➡️

继续阅读