DeepSeek-OCR——上下文视觉压缩:同等长度下,通过更少的视觉token解决长上下文处理难题

DeepSeek-OCR——上下文视觉压缩:同等长度下,通过更少的视觉token解决长上下文处理难题

💡 原文中文,约6800字,阅读约需17分钟。
📝

内容提要

DeepSeek-OCR是一种新型视觉语言模型,利用视觉模态高效压缩文本信息。其架构包括DeepEncoder和解码器,支持多种分辨率,在高压缩比下保持高OCR精度。模型训练使用多样化数据集,提升了文本识别能力。

🎯

关键要点

  • DeepSeek-OCR是一种新型视觉语言模型,利用视觉模态高效压缩文本信息。
  • 模型架构包括DeepEncoder和解码器,支持多种分辨率,在高压缩比下保持高OCR精度。
  • DeepEncoder通过窗口注意力和全局注意力编码器组件串联,确保高效的内存和token压缩。
  • DeepSeek-OCR在9-10倍文本压缩下实现96%+的OCR解码精度。
  • 模型在OmniDocBench端到端模型中实现了最先进的性能,使用的视觉token最少。
  • DeepEncoder包含3.8亿参数,解码器采用30亿参数的MoE架构。
  • DeepSeek-OCR的训练数据集包括OCR 1.0、OCR 2.0和通用视觉数据,OCR数据占70%。
  • OCR 1.0数据涵盖3000万页多样化的PDF数据,包含粗标注和细标注。
  • OCR 2.0数据包括图表、化学式和平面几何解析数据,构建了100万条平面几何解析数据。
  • 训练流程包括独立训练DeepEncoder和训练DeepSeek-OCR,使用AdamW优化器和余弦退火调度器。

延伸问答

DeepSeek-OCR的主要功能是什么?

DeepSeek-OCR是一种新型视觉语言模型,利用视觉模态高效压缩文本信息,支持长上下文处理。

DeepSeek-OCR的架构包含哪些主要部分?

DeepSeek-OCR的架构包括DeepEncoder和解码器,支持多种分辨率,并在高压缩比下保持高OCR精度。

DeepEncoder是如何实现视觉token压缩的?

DeepEncoder通过窗口注意力和全局注意力编码器组件串联,确保高效的内存和token压缩。

DeepSeek-OCR在文本压缩方面的表现如何?

DeepSeek-OCR在9-10倍文本压缩下实现了96%+的OCR解码精度,表现优异。

DeepSeek-OCR的训练数据集包含哪些内容?

DeepSeek-OCR的训练数据集包括OCR 1.0、OCR 2.0和通用视觉数据,其中OCR数据占70%。

DeepSeek-OCR的解码器采用了什么架构?

DeepSeek-OCR的解码器采用30亿参数的MoE架构,具有高效的推理能力。

➡️

继续阅读