NotionNext BLOG ·

Pix2Text V1.1 新版发布，支持 PDF 转 Markdown

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

Pix2Text (P2T) V1.1 发布，整合了版面分析和表格识别模型，能够将复杂排版的图片和 PDF 文件转换为 Markdown 格式。该工具支持文字和数学公式的识别，旨在成为 Mathpix 的免费开源替代品。新版本增强了识别能力，支持多种语言，并提供在线文档和演示。

🎯

关键要点

Pix2Text (P2T) V1.1 发布，整合了版面分析和表格识别模型。
该工具能够将复杂排版的图片和 PDF 文件转换为 Markdown 格式。
支持文字和数学公式的识别，旨在成为 Mathpix 的免费开源替代品。
新版本增强了识别能力，支持 80 多种语言，包括简体中文和英文。
提供在线文档和演示，用户可以免费使用网页版，每人每天可识别 10000 个字符。

❓

延伸问答

Pix2Text V1.1 的主要功能是什么？

Pix2Text V1.1 能够将复杂排版的图片和 PDF 文件转换为 Markdown 格式，并支持文字和数学公式的识别。

Pix2Text V1.1 支持哪些语言？

Pix2Text V1.1 支持超过 80 种语言，包括简体中文和英文。

如何使用 Pix2Text 识别 PDF 文件？

可以使用函数 .recognize_pdf() 对整个 PDF 文件或指定页进行识别，并将结果输出为 Markdown 文件。

Pix2Text V1.1 与 Mathpix 有什么区别？

Pix2Text V1.1 旨在成为 Mathpix 的免费开源替代品，提供类似的功能但不收费。

Pix2Text V1.1 的识别精度如何？

新版本增强了识别能力，提供更高的识别精度，特别是在数学公式的识别上。

使用 Pix2Text 的网页版有什么限制？

网页版每人每天可以免费识别 10000 个字符，且当前只支持简体中文和英文。

🏷️

标签

Markdown Pix2Text pdf 开源版面分析表格识别

➡️

继续阅读

Frame 为 FFmpeg 提供了一个现代化的 GUI，方便日常媒体转换
Frame 是一个开源桌面应用程序，为 FFmpeg 提供图形界面，简化媒体转换过程。它支持多种视频、音频和图像格式，允许用户进行格式转换、编辑元数据和调...
支持17家机器人厂商20多种构型，蚂蚁灵波LingBot-VLA 2.0正式开源
蚂蚁灵波科技于7月8日发布了LingBot-VLA 2.0，升级了具身基座模型，融入6万小时高质量真实物理数据，支持17个机器人品牌。该模型在双臂协作和长...
如何使用JavaScript构建基于浏览器的PDF OCR文本转换器
本文介绍了如何使用JavaScript构建基于浏览器的PDF OCR文本转换器。该工具允许用户上传PDF文件，预览页面，配置OCR设置，提取文本并导出结果...
使用Gemma 4进行零样本本地文档解析：将PDF视为图像
Gemma 4是谷歌DeepMind推出的文档解析工具，能够处理扫描和数字PDF，提取发票信息。它通过将PDF页面渲染为高分辨率图像，利用视觉语言模型读取...
可能禁止特斯拉的机器人出租车法案
For more than a decade, one question has loomed over the race to build autono...
HyperAI 新功能上线 | 为算力容器配置环境变量与 Secret 变量
这些情况下，克隆者本就无法读取原 Secret 的明文，平台也不会把它带到新执行中。页面会保留变量名并提示「原 Secret 值无法保留，请输入新值」，你...