百度大脑 ·

飞桨PP系列模型上新！PP-DocBee文档图像理解的新‘蜂’向标！

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

文档图像理解技术使计算机能够像人类一样分析和提取文档信息。PP-DocBee方案基于多模态大模型，显著提升了中文文档理解能力，广泛应用于财报和法律等领域，表现优异。

🎯

关键要点

文档图像理解技术使计算机能够像人类一样分析和提取文档信息。
PP-DocBee方案基于多模态大模型，显著提升了中文文档理解能力。
PP-DocBee广泛应用于财报、法律法规等领域，表现优异。
PP-DocBee在多个英文文档理解评测榜单上达到了同参数量级别模型的SOTA。
PP-DocBee在内部业务中文场景类的指标上高于热门开源和闭源模型。
通过算子融合优化，PP-DocBee推理耗时降低51.5%，端到端总耗时降低41.9%。
PP-DocBee采用ViT+MLP+LLM的架构，优化了数据合成策略、数据预处理和训练方式。
文档类数据智能生产方案提升了问答质量，生成成本可控。
数据预处理策略提高了视觉特征，增强了理解能力。
PP-DocBee提供了在线体验环境和详细的使用指南，方便用户使用。

❓

延伸问答

PP-DocBee的主要功能是什么？

PP-DocBee主要用于文档图像理解，能够分析和提取文档中的信息，如文字、表格和图表。

PP-DocBee在中文文档理解方面的表现如何？

PP-DocBee在中文文档理解方面表现优异，尤其在财报和法律法规等领域。

PP-DocBee的推理性能如何优化？

通过算子融合优化，PP-DocBee的推理耗时降低了51.5%，端到端总耗时降低了41.9%。

PP-DocBee的模型架构是什么？

PP-DocBee采用ViT+MLP+LLM的架构，优化了数据合成策略和训练方式。

PP-DocBee如何提升问答质量？

PP-DocBee通过文档类数据智能生产方案和OCR后处理辅助来提升问答质量。

用户如何体验PP-DocBee的功能？

用户可以通过飞桨星河社区在线体验环境快速体验PP-DocBee的功能。

🏷️

继续阅读

Claude Pro订阅无法再使用Opus系列模型？A社称过时信息忘记删除
关于Claude Pro订阅无法使用Opus系列模型的消息引发用户不满。A公司澄清这是过时信息，从2026年1月起，Claude Pro已支持在Claud...
小米双模型正式开源！MiMo-V2.5-Pro无中断肝出“macOS”：54个应用全开、浏览器真能冲浪
小米发布的MiMo-V2.5 Pro模型在AI领域取得显著进展，具备强大的长周期任务处理和模糊指令遵循能力。该模型在国际基准测试中表现优异，开源后提高了T...
NVIDIA推出Nemotron 3 Nano Omni模型，整合视觉、音频和语言，实现高达9倍的AI代理效率
NVIDIA推出Nemotron 3 Nano Omni模型，将视觉、音频和语言整合为一个系统，显著提升AI代理的效率和准确性。该模型具备高达9倍的处理能...
我对《缺氧》的游戏理解
《缺氧》是一款基地建设类游戏，玩家需要管理资源和环境，特别是气体和热量。游戏初期资源丰富，但后期资源紧缺，玩家需合理规划基地，优化资源管理和科技树，以提高...
阿里视频模型 HappyHorse 开启灰测，悟空已率先接入
阿里推出的HappyHorse 1.0视频生成模型已开始灰测，面向企业用户进行客户共创。该模型支持文生视频、图生视频等多模态创作，能够快速生成高质量的图片...
MuleRun（骡子快跑）首发灰测HappyHorse模型，支持用户7×24小时调用
MuleRun推出了自进化个人AI，用户可以通过输入提示词调用阿里巴巴的HappyHorse 1.0视频生成模型，支持多种内容生产场景。该平台提供独立云端...