小红花·文摘 - 小红花技术领袖俱乐部

Gemma 4是谷歌DeepMind推出的文档解析工具，能够处理扫描和数字PDF，提取发票信息。它通过将PDF页面渲染为高分辨率图像，利用视觉语言模型读取内容，克服传统文本提取工具的局限性。该工具支持灵活的视觉令牌预算，以适应不同文档的复杂性，确保高效准确的提取。

使用Gemma 4进行零样本本地文档解析：将PDF视为图像

KDnuggets ·

金融AI武道大会开赛！四道业务真题，出题人：猜不到最优解

量子位 ·

Claude Sonnet 5现已在Vercel AI Gateway上线

Claude Sonnet 5现已在Vercel AI Gateway上线

Vercel News ·

96.33% 新SOTA！PaddleOCR-VL-1.6 发布，大模型时代的数据基座再升级

96.33% 新SOTA！PaddleOCR-VL-1.6 发布，大模型时代的数据基座再升级

百度大脑 ·

CVHub x PaddleOCR：X-AnyLabeling 升级 OCR 实战工作流，服务开发者数据闭环

CVHub x PaddleOCR：X-AnyLabeling 升级 OCR 实战工作流，服务开发者数据闭环

百度大脑 ·

文心飞桨 x OceanBase深圳站：携手硬件伙伴打通Agent生产落地链路

文心飞桨 x OceanBase深圳站：携手硬件伙伴打通Agent生产落地链路

百度大脑 ·

PaddleOCR 3.5 发布：Web 端直用、文档一键转 Markdown，生态交互新体验

PaddleOCR 3.5 发布：Web 端直用、文档一键转 Markdown，生态交互新体验

百度大脑 ·

技术深度揭秘｜云知声U1-OCR架构升级 + API 开放，重构 OCR 3.0 时代

量子位 ·

飞桨星河社区月度报告（2026年3月）

飞桨星河社区月度报告（2026年3月）

百度大脑 ·

在线教程丨华中科大与小红书 hi lab开源dots.mocr，SOTA级OCR模型完美还原文档结构，图形也能转 SVG

在线教程丨华中科大与小红书 hi lab开源dots.mocr，SOTA级OCR模型完美还原文档结构，图形也能转 SVG

HyperAI超神经 ·

手把手部署教学+官方skills，在星河社区免费玩转小龙虾！

手把手部署教学+官方skills，在星河社区免费玩转小龙虾！

百度大脑 ·

01Agent×百度AI：终结“AI生图无法修改”的难题，让每张图都真正可编辑！

01Agent×百度AI：终结“AI生图无法修改”的难题，让每张图都真正可编辑！

百度大脑 ·

OpenClaw × PaddleOCR：开箱即用！将文档解析 Skill 能力注入你的 Agent 工具

OpenClaw × PaddleOCR：开箱即用！将文档解析 Skill 能力注入你的 Agent 工具

百度大脑 ·

RAGFlow x PaddleOCR：联动知名开源伙伴，打造端到端高精度文档解析新范式

RAGFlow x PaddleOCR：联动知名开源伙伴，打造端到端高精度文档解析新范式

百度大脑 ·

Pathway × PaddleOCR：握手知名开源框架，打通“动态文档”到实时 RAG 的数据入口

Pathway × PaddleOCR：握手知名开源框架，打通“动态文档”到实时 RAG 的数据入口

百度大脑 ·

Haystack × PaddleOCR：海外开源伙伴+1！构建面向 RAG 与 Agent 的统一文档解析入口

Haystack × PaddleOCR：海外开源伙伴+1！构建面向 RAG 与 Agent 的统一文档解析入口

百度大脑 ·

百度开源新一代OCR模型PaddleOCR-VL-1.5，实现全球首个“异形框定位”能力，精度达到94.5%。该模型在复杂文档解析中表现优异，支持多语种识别，推动OCR技术应用落地。

性能超越DeepSeek-OCR2，百度发布并开源新一代SOTA OCR模型

量子位 ·

PaddleOCR-VL-1.5发布问鼎双榜，0.9B小钢炮攻克“曲面”文档！

PaddleOCR-VL-1.5发布问鼎双榜，0.9B小钢炮攻克“曲面”文档！

百度大脑 ·

七大开源OCR模型

七大开源OCR模型

KDnuggets ·

PaddleOCR官网升级：文心最强衍生模型PaddleOCR-VL体验升级，轻松搞定复杂文档解析与业务验证

PaddleOCR官网升级：文心最强衍生模型PaddleOCR-VL体验升级，轻松搞定复杂文档解析与业务验证

百度大脑 ·