DeepSeek AI发布DeepSeek-OCR：基于视觉的上下文压缩重新定义长文本处理

InfoQ ·

DeepSeek AI发布DeepSeek-OCR：基于视觉的上下文压缩重新定义长文本处理

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

DeepSeek AI开发了DeepSeek-OCR，一个开源系统，通过光学2D映射压缩长文本，提升大语言模型的处理能力。该系统使用视觉编码，以低于10倍的压缩比实现97%的OCR精度，尤其在处理高分辨率输入和多语言文档时表现优异。其代码和模型权重已在GitHub上公开，鼓励研究者探索。

🎯

关键要点

DeepSeek AI开发了DeepSeek-OCR，一个开源系统，通过光学2D映射压缩长文本。
该系统旨在提升大语言模型对文本密集输入的处理能力。
DeepSeek-OCR使用视觉编码，提供低于10倍的压缩比和97%的OCR精度。
系统由DeepEncoder和DeepSeek3B-MoE-A570M解码器组成，能够有效处理高分辨率输入。
DeepEncoder架构通过结合窗口和全局注意机制，减少激活内存，支持大规模图像处理。
DeepSeek-OCR在精度上超越了GOT-OCR 2.0和MinerU 2.0，每页使用不到800个视觉标记。
解码器采用混合专家设计，能够高效处理不同的OCR子任务，适用于图表、公式和多语言文档。
研究团队认为DeepSeek-OCR不仅是OCR系统，还是下一代大语言模型记忆机制的基础。
AI社区对DeepSeek-OCR的反应积极，用户对如何在本地运行模型表示好奇。
DeepSeek-OCR的代码和模型权重已在GitHub上公开，鼓励研究者复现和扩展其成果。

🏷️

继续阅读

DeepSeek 与开源：肥沃土壤孕育 AI 硕果
中国开源生态经过二十年的发展，从零散探索到繁荣，推动了国产AI技术的崛起。DeepSeek等项目的成功得益于开源社区的积累与协作。尽管面临国际竞争，国内开...
如何在NVIDIA RTX PC上开始使用视觉生成AI
本文介绍了如何在RTX PC上使用ComfyUI和LTX-2本地生成高质量图像和视频。通过本地工作流程，创作者能够控制资产，降低云服务成本，提高创作效率。...
Precog如何为企业数据添加业务上下文，使其适合AI使用
Precog推出新功能，帮助企业从SaaS API提取数据并添加业务上下文，以提升AI模型对数据的理解。通过自动生成问题和利用Snowflake的Cort...
DoorDash在聊天和通话中应用AI安全技术，事件发生率降低50%
DoorDash推出了AI安全系统SafeChat，实时监控Dashers与客户的交流，检测不当内容并采取措施。该系统结合机器学习与人工审核，显著降低安全事件发生率。
把医疗AI禁锢在严肃区间：百川M3 Plus首创“证据锚定”，幻觉率2.6%刷新全球纪录
百川M3 Plus医疗AI模型通过“证据锚定”技术将幻觉率降低至2.6%，刷新全球纪录，旨在提升医疗AI的可信度，辅助医生做出科学决策，并通过“海纳百川计...
迷你书：AI时代的架构：变革与机遇
现代软件架构面临挑战，AI迅速发展导致系统复杂性增加，架构师的角色也在不断演变。团队需在自主性与一致性之间找到平衡，同时确保系统的可靠性。本文汇集行业见解...

DeepSeek AI发布DeepSeek-OCR：基于视觉的上下文压缩重新定义长文本处理

内容提要

关键要点

标签

继续阅读