量子位 ·

全球OCR最强模型仅0.9B！百度文心衍生模型刚刚横扫4项SOTA

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

百度新发布的PaddleOCR-VL模型参数仅0.9B，获得OmniDocBench V1.5全球第一，全面超越文本、公式、表格和阅读顺序四项能力，标志着OCR技术的重大突破，具备强大的行业应用潜力。

🎯

关键要点

百度新发布的PaddleOCR-VL模型参数仅0.9B，获得OmniDocBench V1.5全球第一。
PaddleOCR-VL在文本、公式、表格和阅读顺序四项能力上全面超越，成为唯一在这四个维度全部排名第一的模型。
该模型设计用于复杂文档结构解析，具备强大的行业应用潜力。
PaddleOCR-VL在文本识别中以96.5的成绩拿下全场最高分，支持109种语言。
在公式识别中，PaddleOCR-VL的CDM得分高达0.9453，能精准还原复杂数学公式。
在表格理解方面，该模型能够解析嵌套表格与合并单元格，得分达到89.8。
PaddleOCR-VL在阅读顺序预测中表现优异，预测误差仅为0.043。
该模型采用创新的两阶段架构，提升了复杂版面任务的稳定性和效率。
PaddleOCR-VL的轻量化设计与异步推理机制显著领先同类模型。
OCR技术在各行业中发挥着不可替代的作用，推动数字化基础设施建设。
PaddleOCR-VL不仅是文档解析工具，更是AI时代企业知识中台建设的关键基础设施。
该模型的成功标志着中国在全球多模态文档解析领域的突破。

🏷️

继续阅读

2.4万亿参数“最强文科生”，文心5.0正式版，你挺懂山东人啊？
文心5.0正式发布，参数达到2.4万亿，具备全模态能力，表现优异。其在文本和视觉理解方面多次夺冠，展现出强大的知识整合与创造力。通过原生全模态建模，提升了...
把医疗AI禁锢在严肃区间：百川M3 Plus首创“证据锚定”，幻觉率2.6%刷新全球纪录
百川M3 Plus医疗AI模型通过“证据锚定”技术将幻觉率降低至2.6%，刷新全球纪录，旨在提升医疗AI的可信度，辅助医生做出科学决策，并通过“海纳百川计...
为什么全球企业正在加速推进联络中心自动化?
企业通过联络中心自动化提升客户服务，利用AI技术提高响应速度和效率，满足客户期望。自动化系统处理常见问题，支持多渠道互动，提供个性化体验，并生成数据洞察以促进持续改进。
具身智能资源汇总：机器人学习数据集，在线体验世界建模模型，英伟达/字节/小米等最新研究论文
本文系统整理了一批具身智能相关的高质量数据集、在线教程、论文，为进一步学习和研究提供参考，欢迎前往 hyper.ai 探索更多优质资源！
微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频
微软推出了VibeVoice-ASR，一个开源的语音转文本模型，支持最长60分钟的音频处理，输出结构化文本，包括“谁”、“何时”、“什么”。该模型允许用户...
AI辅助开发的主厨模型
随着AI编码助手的发展，开发者的角色正在转变为管理AI，专注于设计和质量控制。开发者需要掌握反馈循环、任务委派和模块化设计等新技能，以提高效率。同时，AI...

全球OCR最强模型仅0.9B！百度文心衍生模型刚刚横扫4项SOTA

内容提要

关键要点

标签

继续阅读