💡
原文中文,约3000字,阅读约需7分钟。
📝
内容提要
DeepSeek发布了新模型DeepSeek-OCR,采用光学压缩技术,将文本转为图像,压缩率可达10倍,准确率超过97%。该模型通过DeepEncoder提取特征,支持多分辨率输入,具备深度解析能力,适用于STEM领域。团队还探索AI的“遗忘”机制,以提高超长上下文处理效率。
🎯
关键要点
- DeepSeek发布了新模型DeepSeek-OCR,采用光学压缩技术,将文本转为图像,压缩率可达10倍,准确率超过97%。
- DeepSeek-OCR通过DeepEncoder提取特征,支持多分辨率输入,具备深度解析能力,适用于STEM领域。
- 模型由两个核心组件组成:DeepEncoder负责图像特征提取和压缩,DeepSeek3B-MoE负责从压缩后的视觉Token中重建文本。
- DeepEncoder架构巧妙,结合了SAM-base和CLIP-large,支持高分辨率输入并控制内存开销。
- DeepSeek团队收集了3000万页多语言PDF数据,涵盖约100种语言,数据分为粗标注和精标注。
- DeepSeek-OCR具备深度解析能力,能够对复杂图像进行结构化提取,适用于化学、物理、数学等领域。
- 团队探索AI的“遗忘”机制,通过光学压缩模拟人类记忆的衰退,提升超长上下文处理效率。
- DeepSeek-OCR展示了7-20倍的Token压缩能力,探索视觉模态作为文本信息处理的高效媒介。
❓
延伸问答
DeepSeek-OCR模型的主要功能是什么?
DeepSeek-OCR模型主要通过光学压缩技术将文本转为图像,具备高达10倍的压缩率和超过97%的准确率。
DeepSeek-OCR是如何提高超长上下文处理效率的?
DeepSeek-OCR通过探索AI的“遗忘”机制,将历史对话内容渲染成图像并逐步压缩,从而减少计算资源的占用。
DeepSeek-OCR的核心组件有哪些?
DeepSeek-OCR由DeepEncoder和DeepSeek3B-MoE两个核心组件组成,前者负责特征提取和压缩,后者负责文本重建。
DeepSeek-OCR在STEM领域的应用潜力如何?
DeepSeek-OCR具备深度解析能力,能够对复杂图像进行结构化提取,适用于化学、物理、数学等领域。
DeepSeek团队是如何收集训练数据的?
DeepSeek团队收集了3000万页多语言PDF数据,涵盖约100种语言,数据分为粗标注和精标注。
DeepSeek-OCR的压缩能力如何?
DeepSeek-OCR展示了7-20倍的Token压缩能力,能够有效减少文本信息的处理量。
➡️