InfoQ ·

DeepSeek AI发布DeepSeek-OCR：基于视觉的上下文压缩重新定义长文本处理

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

DeepSeek AI开发了DeepSeek-OCR，一个开源系统，通过光学2D映射压缩长文本，提升大语言模型的处理能力。该系统使用视觉编码，以低于10倍的压缩比实现97%的OCR精度，尤其在处理高分辨率输入和多语言文档时表现优异。其代码和模型权重已在GitHub上公开，鼓励研究者探索。

🎯

🔎

DeepSeek-OCR采用视觉编码技术，相较于传统的文本标记化方法，能够更高效地存储和检索语言信息。这种新颖的上下文压缩方法不仅提高了OCR精度，还在处理高分辨率输入时表现出色，适合多语言文档的需求。

尽管DeepSeek-OCR在处理文本密集型输入方面表现优异，但其在本地运行时可能需要较高的GPU内存。开发者在讨论中提到，使用Python transformers可以实现模型运行，但需要注意硬件要求。

研究团队认为DeepSeek-OCR不仅是一个OCR系统，更可能成为下一代大语言模型记忆机制的基础。通过将长文本压缩为视觉标记，模型能够更有效地“记住”过去的信息，这可能会改变未来模型的设计思路。

❓

DeepSeek-OCR通过光学2D映射压缩长文本，提升大语言模型的处理能力。

DeepSeek-OCR实现了低于10倍的压缩比和97%的OCR精度。

DeepSeek-OCR通过DeepEncoder架构结合窗口和全局注意机制，有效处理高分辨率输入。

DeepSeek-OCR在精度上超越了GOT-OCR 2.0和MinerU 2.0，每页使用不到800个视觉标记。

DeepSeek-OCR的代码和模型权重已在GitHub上公开。

DeepSeek-OCR被视为下一代大语言模型记忆机制的基础，能够有效存储长上下文信息。

🏷️