NotionNext BLOG ·

Pix2Text 新版数学公式检测和识别模型：V1.5

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

Pix2Text (P2T) 发布了数学公式检测模型 MFD 和识别模型 MFR 的 V1.5 版本，显著提升了效果。新模型采用 yolo11 架构，增加了训练数据，适应非标准排版。MFR V1.5 优化了复杂公式的识别，最大 tokens 数量提升至 1024。P2T 提供免费网页版，支持识别图片中的数学公式并输出为 Markdown 格式。

🎯

关键要点

Pix2Text (P2T) 发布了数学公式检测模型 MFD 和识别模型 MFR 的 V1.5 版本，效果显著提升。
新模型采用 yolo11 架构，增加了训练数据，适应非标准排版。
MFR V1.5 优化了复杂公式的识别，最大 tokens 数量提升至 1024。
P2T 提供免费网页版，支持识别图片中的数学公式并输出为 Markdown 格式。

🔎

延伸解读

模型架构的演变

Pix2Text V1.5 采用了新的 yolo11 架构，相比于 V1.0 的 yolo8，模型的检测能力和识别精度都有显著提升。这种架构的更新使得模型能够更好地适应非标准排版的数学公式，尤其是在处理来自不同来源的图片时，效果更加稳定。

复杂公式的识别能力

MFR V1.5 在复杂公式的识别上进行了优化，最大 tokens 数量从 512 提升至 1024。这一变化使得模型能够处理更复杂的多行公式，适合高等数学和科学研究领域的需求，用户在使用时应关注公式的复杂性，以获得最佳识别效果。

免费与付费版本的选择

Pix2Text 提供了免费网页版和付费模型两种选择。免费版每天支持识别 10000 个字符，适合一般用户使用；而付费版则提供更高的精度和更多功能，适合需要高频使用或商业用途的用户。选择时需考虑自身需求和预算。

❓

延伸问答

Pix2Text V1.5 模型有哪些主要改进？

Pix2Text V1.5 模型在检测和识别效果上显著提升，采用了 yolo11 架构，增加了训练数据，并优化了复杂公式的识别，最大 tokens 数量提升至 1024。

Pix2Text 的网页版有什么功能？

Pix2Text 的网页版支持识别图片中的数学公式，并将其输出为 Markdown 格式，每人每天可以免费识别 10000 个字符。

如何安装和使用 Pix2Text V1.5？

如果已安装旧版，可以使用命令更新 Python 包；如果未安装，可以直接使用命令安装最新的 pix2text 包，使用时会自动下载所需模型。

Pix2Text V1.5 的识别模型有哪些版本？

Pix2Text V1.5 包含 MFD-1.5 和 MFR-1.5 两个开源模型，以及 MFD-ADVANCED-1.5 和 MFR-PRO-1.5 两个付费模型。

Pix2Text V1.5 如何处理复杂的数学公式？

V1.5 通过增加来自真实场景的图片标注数据和优化训练过程，提升了对复杂多行公式的识别能力。

Pix2Text V1.5 的最大 tokens 数量是多少？

Pix2Text V1.5 的最大 tokens 数量提升至 1024。

🏷️