爱范儿 ·

刚刚，DeepSeek 又发新模型，小而美玩出新高度

💡 原文中文，约3000字，阅读约需7分钟。

📝

内容提要

DeepSeek发布了新模型DeepSeek-OCR，采用光学压缩技术，将文本转为图像，压缩率可达10倍，准确率超过97%。该模型通过DeepEncoder提取特征，支持多分辨率输入，具备深度解析能力，适用于STEM领域。团队还探索AI的“遗忘”机制，以提高超长上下文处理效率。

🎯

🔎

DeepSeek-OCR通过光学压缩技术，将文本转化为图像，显著降低了Token的使用量。这种方法不仅提高了处理效率，还为长文本处理提供了新的思路，尤其在STEM领域，能够有效应对复杂信息的解析需求。

DeepSeek-OCR具备深度解析能力，能够对图表、化学结构式等复杂图像进行结构化提取。这一特性在科学研究和数据分析中具有广泛应用潜力，尤其是在需要处理大量符号和图形的领域。

DeepSeek团队探索的AI“遗忘”机制，模拟人类记忆的衰退，可能为超长上下文处理带来突破。这一研究方向虽然仍处于早期阶段，但若成功，将极大提升AI在复杂任务中的表现。

❓

DeepSeek-OCR模型主要通过光学压缩技术将文本转为图像，具备高达10倍的压缩率和超过97%的准确率。

DeepSeek-OCR通过探索AI的“遗忘”机制，将历史对话内容渲染成图像并逐步压缩，从而减少计算资源的占用。

DeepSeek-OCR由DeepEncoder和DeepSeek3B-MoE两个核心组件组成，前者负责特征提取和压缩，后者负责文本重建。

DeepSeek-OCR具备深度解析能力，能够对复杂图像进行结构化提取，适用于化学、物理、数学等领域。

DeepSeek团队收集了3000万页多语言PDF数据，涵盖约100种语言，数据分为粗标注和精标注。

DeepSeek-OCR展示了7-20倍的Token压缩能力，能够有效减少文本信息的处理量。

🏷️