小红花·文摘 - 小红花技术领袖俱乐部

在线教程丨32K上下文一次解析数十页文档，百度开源Unlimited OCR，重构长文档复杂场景

在线教程丨32K上下文一次解析数十页文档，百度开源Unlimited OCR，重构长文档复杂场景

HyperAI超神经 ·

Claude Fable 5现已在Databricks上推出，通过Unity AI Gateway全面管理

Claude Fable 5现已在Databricks上推出，通过Unity AI Gateway全面管理

Databricks ·

LangChain x PaddleOCR：重磅集成！让 AI Agents 真正看懂复杂文档

LangChain x PaddleOCR：重磅集成！让 AI Agents 真正看懂复杂文档

百度大脑 ·

企业级OpenClaw最强拍档来了！万亿参数的国产多模态大模型，刚刚开源发布

企业级OpenClaw最强拍档来了！万亿参数的国产多模态大模型，刚刚开源发布

量子位 ·

云知声推出Unisound U1-OCR，标志着OCR 3.0时代的到来。该模型具备高效的文档理解能力，超越传统OCR，实现从“识别文字”到“理解文档”的转变，适应复杂场景，提高文档处理效率。

云知声Unisound U1-OCR大模型发布！首个工业级文档智能基础大模型，开启OCR 3.0时代

量子位 ·

在线教程｜DeepSeek-OCR 2公式/表格解析同步改善，以低视觉token成本实现近4%的性能跃迁

在线教程｜DeepSeek-OCR 2公式/表格解析同步改善，以低视觉token成本实现近4%的性能跃迁

HyperAI超神经 ·

DeepSeek-OCR 2大模型开源，重塑文档AI的认知逻辑

DeepSeek-OCR 2大模型开源，重塑文档AI的认知逻辑

TechWeb 全站精华 ·

智能体渗透测试，自动化验证漏洞防误报 | 开源日报 No.813

智能体渗透测试，自动化验证漏洞防误报 | 开源日报 No.813

开源服务指南 ·

百度推出开源视觉理解模型Qianfan-VL，提供3B、8B、70B三个版本，专为企业级多模态应用优化，具备OCR和教育等高频需求，支持复杂推理与文档理解，性能优异。

百度开源视觉理解模型Qianfan-VL！全尺寸领域增强+全自研芯片计算

量子位 ·

AI时代的文档解析神器：MinerU技术架构深度剖析与实战解码

AI时代的文档解析神器：MinerU技术架构深度剖析与实战解码

dotNET跨平台 ·

飞桨PaddlePaddle推出新一代文档图像理解模型PP-DocBee2，基于多模态大模型架构，提升了复杂文档理解能力，中文场景精确率提高11.4%。该模型支持财报分析、合同审查等应用，并提供简单API，具备良好应用前景。

更懂中文文档理解，PP-DocBee2全新升级-PaddleOCR 3.0全栈技术解密系列

百度大脑 ·

NVIDIA AI 发布 Llama Nemotron Nano VL：专为文档理解而优化的紧凑型视觉语言模型

NVIDIA AI 发布 Llama Nemotron Nano VL：专为文档理解而优化的紧凑型视觉语言模型

实时互动网 ·

比较亚马逊Bedrock大语言模型中的OCR能力：Claude 3.7 Sonnet与Nova Pro

比较亚马逊Bedrock大语言模型中的OCR能力：Claude 3.7 Sonnet与Nova Pro

DEV Community ·

Gemma 3 + Mistral OCR + RAG 彻底革新了代理OCR

Gemma 3 + Mistral OCR + RAG 彻底革新了代理OCR

DEV Community ·

AI助手：从通用到专业

AI助手：从通用到专业

Elastic Blog - Elasticsearch, Kibana, and ELK Stack ·

本研究提出了一种高效训练方法，将超长上下文大语言模型的上下文长度从128K扩展至4M，以满足文档和视频理解等应用需求。研究表明，该方法在长上下文基准测试中表现优异，同时保持了模型的指令遵循和推理能力。

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了BiblioPage数据集，旨在解决手动数字化书目元数据耗时的问题。该数据集包含来自14家捷克图书馆的约2000个标题页，标注了16个书目属性，以支持文档理解和信息提取的自动化处理。

BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction

BriefGPT - AI 论文速递 ·

模态GAP不存在了？图文领域首个token级大一统基座诞生

模态GAP不存在了？图文领域首个token级大一统基座诞生

机器之心 ·

Mistral OCR：文档理解与人工智能驱动的光学字符识别的未来

Mistral OCR：文档理解与人工智能驱动的光学字符识别的未来

DEV Community ·

构建AI代理的开源工具包👨🏻‍💼

构建AI代理的开源工具包👨🏻‍💼

DEV Community ·