💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

DeepSeek AI开发了DeepSeek-OCR,一个开源系统,通过光学2D映射压缩长文本,提升大语言模型的处理能力。该系统使用视觉编码,以低于10倍的压缩比实现97%的OCR精度,尤其在处理高分辨率输入和多语言文档时表现优异。其代码和模型权重已在GitHub上公开,鼓励研究者探索。

🎯

关键要点

  • DeepSeek AI开发了DeepSeek-OCR,一个开源系统,通过光学2D映射压缩长文本。
  • 该系统旨在提升大语言模型对文本密集输入的处理能力。
  • DeepSeek-OCR使用视觉编码,提供低于10倍的压缩比和97%的OCR精度。
  • 系统由DeepEncoder和DeepSeek3B-MoE-A570M解码器组成,能够有效处理高分辨率输入。
  • DeepEncoder架构通过结合窗口和全局注意机制,减少激活内存,支持大规模图像处理。
  • DeepSeek-OCR在精度上超越了GOT-OCR 2.0和MinerU 2.0,每页使用不到800个视觉标记。
  • 解码器采用混合专家设计,能够高效处理不同的OCR子任务,适用于图表、公式和多语言文档。
  • 研究团队认为DeepSeek-OCR不仅是OCR系统,还是下一代大语言模型记忆机制的基础。
  • AI社区对DeepSeek-OCR的反应积极,用户对如何在本地运行模型表示好奇。
  • DeepSeek-OCR的代码和模型权重已在GitHub上公开,鼓励研究者复现和扩展其成果。
➡️

继续阅读