小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
LangChain x PaddleOCR:重磅集成!让 AI Agents 真正看懂复杂文档

LangChain 集成了 PaddleOCR-VL-1.5,增强了文档理解能力。通过 PADDLEOCRVLLoader,开发者可以从 PDF 和图像中提取文本与版面信息,输出结构化数据。这一集成提升了 AI 应用的信息解析能力,支持多语言处理,适用于复杂文档的智能处理工作流。

LangChain x PaddleOCR:重磅集成!让 AI Agents 真正看懂复杂文档

百度大脑
百度大脑 · 2026-03-11T12:31:53Z
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布

YuanLab.ai团队发布了Yuan3.0 Ultra多模态大模型,拥有万亿参数,优化了企业级任务处理能力,支持文档理解和数据分析。该模型引入高效训练机制和结构优化,提升计算效率,已全面开源,推动大模型在企业应用中的落地。

企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布

量子位
量子位 · 2026-03-05T11:19:15Z

云知声推出Unisound U1-OCR,标志着OCR 3.0时代的到来。该模型具备高效的文档理解能力,超越传统OCR,实现从“识别文字”到“理解文档”的转变,适应复杂场景,提高文档处理效率。

云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代

量子位
量子位 · 2026-02-26T08:16:16Z
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁

DeepSeek-AI推出的DeepSeek-OCR 2通过新架构DeepEncoder V2,解决了文档OCR中的布局解析和语义对齐问题,显著提升了文档理解准确率,尤其在公式和表格解析方面表现突出。

在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁

HyperAI超神经
HyperAI超神经 · 2026-02-04T06:31:58Z
DeepSeek-OCR 2大模型开源,重塑文档AI的认知逻辑

深度求索团队发布的DeepSeek-OCR 2模型在文档理解能力上取得了91.09%的得分。其核心创新“视觉因果流”提升了模型对复杂文档结构的理解,增强了处理效率和准确性,适用于多种文档类型,为未来多模态人工智能提供了新方向。

DeepSeek-OCR 2大模型开源,重塑文档AI的认知逻辑

TechWeb 全站精华
TechWeb 全站精华 · 2026-01-27T09:17:52Z
智能体渗透测试,自动化验证漏洞防误报 | 开源日报 No.813

VoiceInk 是一款 macOS 语音转文字应用,具备99%准确率的离线转录功能,注重隐私保护。WeKnora 是基于大语言模型的文档理解框架,支持多种格式的内容提取。Strix 是开源的AI渗透测试代理,能够动态检测安全漏洞。adk-web 简化AI代理的开发,LEANN 是高效的向量数据库,专注于私密检索。

智能体渗透测试,自动化验证漏洞防误报 | 开源日报 No.813

开源服务指南
开源服务指南 · 2025-12-08T07:35:56Z

百度推出开源视觉理解模型Qianfan-VL,提供3B、8B、70B三个版本,专为企业级多模态应用优化,具备OCR和教育等高频需求,支持复杂推理与文档理解,性能优异。

百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算

量子位
量子位 · 2025-09-22T17:23:00Z
AI时代的文档解析神器:MinerU技术架构深度剖析与实战解码

MinerU是一个开源项目,利用深度学习技术优化PDF文档解析,解决传统工具的格式混乱和识别失败问题。它集成多种AI模型,支持高精度的文档理解和信息提取,适用于学术研究和企业数字化。

AI时代的文档解析神器:MinerU技术架构深度剖析与实战解码

dotNET跨平台
dotNET跨平台 · 2025-09-18T00:02:30Z

飞桨PaddlePaddle推出新一代文档图像理解模型PP-DocBee2,基于多模态大模型架构,提升了复杂文档理解能力,中文场景精确率提高11.4%。该模型支持财报分析、合同审查等应用,并提供简单API,具备良好应用前景。

更懂中文文档理解,PP-DocBee2全新升级-PaddleOCR 3.0全栈技术解密系列

百度大脑
百度大脑 · 2025-06-25T14:01:59Z
NVIDIA AI 发布 Llama Nemotron Nano VL:专为文档理解而优化的紧凑型视觉语言模型

NVIDIA推出了Llama Nemotron Nano VL,这是一种高效的视觉语言模型,专注于文档理解,基于Llama 3.1架构,结合轻量级视觉编码器,支持多模态输入,优化标记推理。该模型在OCRBench v2中表现优异,适用于自动文档问答和智能OCR等应用。

NVIDIA AI 发布 Llama Nemotron Nano VL:专为文档理解而优化的紧凑型视觉语言模型

实时互动网
实时互动网 · 2025-06-05T02:15:19Z
比较亚马逊Bedrock大语言模型中的OCR能力:Claude 3.7 Sonnet与Nova Pro

本文探讨了亚马逊Bedrock下的Claude 3.7 Sonnet和Nova Pro模型在PDF文本提取中的能力。与传统OCR工具相比,现代大语言模型通过上下文理解和智能解释,显著提高了文本提取的准确性和效率。研究发现Nova Pro在速度上更快,而Claude在输入令牌使用上更高效,展示了AI在文档理解领域的潜力,超越了传统OCR的局限。

比较亚马逊Bedrock大语言模型中的OCR能力:Claude 3.7 Sonnet与Nova Pro

DEV Community
DEV Community · 2025-05-01T19:18:46Z
Gemma 3 + Mistral OCR + RAG 彻底革新了代理OCR

Mistral AI推出Mistral OCR,具备高精度文档理解能力,支持多种文档元素。与Google的Gemma 3结合使用,可创建强大的OCR代理,处理多语言和多模态数据,提升文档智能化水平。

Gemma 3 + Mistral OCR + RAG 彻底革新了代理OCR

DEV Community
DEV Community · 2025-04-21T22:29:06Z
AI助手:从通用到专业

AI助手通过检索增强生成(RAG)技术,将通用语言模型与专业知识库结合,帮助用户高效获取专业信息,节省时间,提高决策质量。RAG使复杂文档易于理解,适合各种用户。

AI助手:从通用到专业

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2025-04-11T00:00:00Z

本研究提出了一种高效训练方法,将超长上下文大语言模型的上下文长度从128K扩展至4M,以满足文档和视频理解等应用需求。研究表明,该方法在长上下文基准测试中表现优异,同时保持了模型的指令遵循和推理能力。

From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究提出了BiblioPage数据集,旨在解决手动数字化书目元数据耗时的问题。该数据集包含来自14家捷克图书馆的约2000个标题页,标注了16个书目属性,以支持文档理解和信息提取的自动化处理。

BiblioPage: A Dataset of Scanned Title Pages for Bibliographic Metadata Extraction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z
模态GAP不存在了?图文领域首个token级大一统基座诞生

上交联合美团推出了TokenIT和TokenFD,解决了细粒度文本图像理解的挑战。TokenIT是首个token级图文数据集,包含2000万图像和18亿Token-Mask对,支持细粒度对齐。TokenFD实现了视觉与语言的token级对齐,提升了多模态大模型性能,推动文档理解和图文检索的发展。

模态GAP不存在了?图文领域首个token级大一统基座诞生

机器之心
机器之心 · 2025-03-18T02:40:39Z
Mistral OCR:文档理解与人工智能驱动的光学字符识别的未来

Mistral OCR是一款先进的文档理解和光学字符识别工具,能够高效提取复杂文档中的结构化信息,支持多语言和多模态处理,准确性优于其他主流OCR模型,适用于科学研究、文化保护和企业文档自动化等领域。

Mistral OCR:文档理解与人工智能驱动的光学字符识别的未来

DEV Community
DEV Community · 2025-03-11T04:14:18Z
构建AI代理的开源工具包👨🏻‍💼

本文介绍了多种开源工具,用于构建智能AI代理,包括CrewAI、AutoGPT、AutoGen和SuperAGI框架,以及Open Interpreter和Self-Operating Computer等交互工具。此外,还提到Coqui TTS和Vosk语音工具,以及Haystack和PdfPlumber文档理解工具。

构建AI代理的开源工具包👨🏻‍💼

DEV Community
DEV Community · 2025-02-19T14:44:12Z
Qwen2.5 VL!Qwen2.5 VL!Qwen2.5 VL!

Qwen2.5-VL是新发布的视觉语言模型,具备强大的图像识别和理解能力,支持长视频分析和精准定位。该模型在文档理解和视觉代理操作等任务中表现优异,能够识别多种物体、文本和图表,并提供结构化输出,适用于金融和商业领域。开源版本包括不同规模的模型,提升了多模态处理能力。

Qwen2.5 VL!Qwen2.5 VL!Qwen2.5 VL!

Blog on Qwen
Blog on Qwen · 2025-01-26T11:08:41Z

文档图像理解技术使计算机能够像人类一样分析和提取文档信息。PP-DocBee方案基于多模态大模型,显著提升了中文文档理解能力,广泛应用于财报和法律等领域,表现优异。

飞桨PP系列模型上新!PP-DocBee文档图像理解的新‘蜂’向标!

百度大脑
百度大脑 · 2025-01-02T12:11:04Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码