💡
原文中文,约4700字,阅读约需12分钟。
📝
内容提要
Pix2Text (P2T) 发布了数学公式检测模型 MFD 和识别模型 MFR 的 V1.5 版本,显著提升了效果。新模型采用 yolo11 架构,增加了训练数据,适应非标准排版。MFR V1.5 优化了复杂公式的识别,最大 tokens 数量提升至 1024。P2T 提供免费网页版,支持识别图片中的数学公式并输出为 Markdown 格式。
🎯
关键要点
- Pix2Text (P2T) 发布了数学公式检测模型 MFD 和识别模型 MFR 的 V1.5 版本,效果显著提升。
- 新模型采用 yolo11 架构,增加了训练数据,适应非标准排版。
- MFR V1.5 优化了复杂公式的识别,最大 tokens 数量提升至 1024。
- P2T 提供免费网页版,支持识别图片中的数学公式并输出为 Markdown 格式。
❓
延伸问答
Pix2Text V1.5 模型有哪些主要改进?
Pix2Text V1.5 模型在检测和识别效果上显著提升,采用了 yolo11 架构,增加了训练数据,并优化了复杂公式的识别,最大 tokens 数量提升至 1024。
Pix2Text 的网页版有什么功能?
Pix2Text 的网页版支持识别图片中的数学公式,并将其输出为 Markdown 格式,每人每天可以免费识别 10000 个字符。
如何安装和使用 Pix2Text V1.5?
如果已安装旧版,可以使用命令更新 Python 包;如果未安装,可以直接使用命令安装最新的 pix2text 包,使用时会自动下载所需模型。
Pix2Text V1.5 的识别模型有哪些版本?
Pix2Text V1.5 包含 MFD-1.5 和 MFR-1.5 两个开源模型,以及 MFD-ADVANCED-1.5 和 MFR-PRO-1.5 两个付费模型。
Pix2Text V1.5 如何处理复杂的数学公式?
V1.5 通过增加来自真实场景的图片标注数据和优化训练过程,提升了对复杂多行公式的识别能力。
Pix2Text V1.5 的最大 tokens 数量是多少?
Pix2Text V1.5 的最大 tokens 数量提升至 1024。
➡️