$DeepSeek-OCR——上下文视觉压缩：同等长度下，通过更少的视觉token解决长上下文处理难题$

结构之法算法之道 ·

DeepSeek-OCR——上下文视觉压缩：同等长度下，通过更少的视觉token解决长上下文处理难题

💡 原文中文，约6800字，阅读约需17分钟。

📝

内容提要

DeepSeek-OCR是一种新型视觉语言模型，利用视觉模态高效压缩文本信息。其架构包括DeepEncoder和解码器，支持多种分辨率，在高压缩比下保持高OCR精度。模型训练使用多样化数据集，提升了文本识别能力。

🎯

🔎

DeepSeek-OCR通过视觉模态实现文本信息的高效压缩，能够在较少的视觉token下保持高OCR精度。这种方法不仅提高了处理长文本的效率，还为视觉-语言模型的研究提供了新的思路，尤其是在需要处理复杂文档时，视觉模态的优势尤为明显。

DeepSeek-OCR的架构设计包括DeepEncoder和解码器，前者通过窗口注意力和全局注意力的结合，优化了内存和token的使用。这种创新的设计使得模型在高压缩比下仍能保持高精度，适用于多种分辨率输入，展现出较强的灵活性和适应性。

DeepSeek-OCR的训练数据集涵盖了OCR 1.0和OCR 2.0等多种类型，确保了模型在不同场景下的识别能力。尤其是OCR 1.0的数据量庞大，包含3000万页多样化的PDF数据，这为模型的训练提供了丰富的基础，提升了其在实际应用中的表现。

❓

DeepSeek-OCR是一种新型视觉语言模型，利用视觉模态高效压缩文本信息，支持长上下文处理。

DeepSeek-OCR的架构包括DeepEncoder和解码器，支持多种分辨率，并在高压缩比下保持高OCR精度。

DeepEncoder通过窗口注意力和全局注意力编码器组件串联，确保高效的内存和token压缩。

DeepSeek-OCR在9-10倍文本压缩下实现了96%+的OCR解码精度，表现优异。

DeepSeek-OCR的训练数据集包括OCR 1.0、OCR 2.0和通用视觉数据，其中OCR数据占70%。

DeepSeek-OCR的解码器采用30亿参数的MoE架构，具有高效的推理能力。

🏷️