DeepSeek-OCR 2于2026年发布,整体可用性下降。尽管在多行公式识别上有所进步,但简单公式的识别准确率降低,排版问题频发。相比V1版本,V2在实际应用中表现不佳,用户更倾向于使用V1进行校对。
MinerU在公式识别上有所进步,但仍存在汉字识别错误和漏识别标点的问题。与PaddleOCR-VL相比,MinerU在特殊符号识别上更准确,但速度较慢。总体而言,DeepSeek-OCR在排版和复杂公式识别方面表现最佳。
本文提出了PP-FormulaNet模型,解决了文件智能中的公式识别问题。该模型在准确性和效率上取得显著平衡,PP-FormulaNet-L的准确率比其他模型高6%,PP-FormulaNet-S的处理速度快16倍,推动了复杂数学公式的应用。
本研究提出了一种新颖的半监督框架SemiHMER,旨在解决手写数学表达识别中标注数据不足的问题。通过双分支半监督学习和增强策略,显著提升了模型的训练效果,尤其在长距离公式识别方面表现突出。
Pix2Text (P2T)是一个免费的开源Python替代Mathpix的工具,现在可以识别包含文本和公式的图像。它使用开源工具来检测数学公式的位置并识别文本。最新更新包括添加了混合图像和纯公式图像以提高识别效果。新模型在中文图像和窄纯公式图像的公式检测方面显示出改进。YoloV7模型将提供给CnOCR/CnSTD私人群组。不同版本的模型将提供给P2T网页版、付费用户和所有用户免费使用。
完成下面两步后,将自动完成登录并继续当前操作。