💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
DeepSeek AI开发了DeepSeek-OCR,一个开源系统,通过光学2D映射压缩长文本,提升大语言模型的处理能力。该系统使用视觉编码,以低于10倍的压缩比实现97%的OCR精度,尤其在处理高分辨率输入和多语言文档时表现优异。其代码和模型权重已在GitHub上公开,鼓励研究者探索。
🎯
关键要点
- DeepSeek AI开发了DeepSeek-OCR,一个开源系统,通过光学2D映射压缩长文本。
- 该系统旨在提升大语言模型对文本密集输入的处理能力。
- DeepSeek-OCR使用视觉编码,提供低于10倍的压缩比和97%的OCR精度。
- 系统由DeepEncoder和DeepSeek3B-MoE-A570M解码器组成,能够有效处理高分辨率输入。
- DeepEncoder架构通过结合窗口和全局注意机制,减少激活内存,支持大规模图像处理。
- DeepSeek-OCR在精度上超越了GOT-OCR 2.0和MinerU 2.0,每页使用不到800个视觉标记。
- 解码器采用混合专家设计,能够高效处理不同的OCR子任务,适用于图表、公式和多语言文档。
- 研究团队认为DeepSeek-OCR不仅是OCR系统,还是下一代大语言模型记忆机制的基础。
- AI社区对DeepSeek-OCR的反应积极,用户对如何在本地运行模型表示好奇。
- DeepSeek-OCR的代码和模型权重已在GitHub上公开,鼓励研究者复现和扩展其成果。
➡️