DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型,性能媲美Gemini-3 Pro
💡
原文中文,约3400字,阅读约需9分钟。
📝
内容提要
DeepSeek发布了新OCR模型DeepSeek-OCR 2,采用轻量化Qwen2-0.5B模型,性能接近Gemini-3 Pro。该模型通过DeepEncoder V2实现视觉标记智能重排,提升PDF转Markdown的准确性,基于OmniDocBench v1.5测试显示性能提升3.73%。
🎯
关键要点
- DeepSeek发布了新OCR模型DeepSeek-OCR 2,主打将PDF文档精准转换Markdown。
- DeepSeek-OCR 2采用轻量化Qwen2-0.5B模型,性能接近Gemini-3 Pro。
- 模型通过DeepEncoder V2实现视觉标记智能重排,提升PDF转Markdown的准确性。
- DeepEncoder V2替换了CLIP组件,赋予编码器因果推理能力,模拟人类阅读逻辑。
- 在OmniDocBench v1.5基准上,DeepSeek-OCR 2性能提升3.73%。
- 模型架构包括视觉分词器和解码器,编码器负责将图像离散化为视觉标记。
- 引入双流注意力机制,确保视觉信息在所有层中保持活跃。
- 训练流程包括编码器预训练、查询增强和解码器微调。
- DeepSeek-OCR 2在实验中表现优于Gemini-3 Pro,证明了模型逻辑视觉理解能力的提升。
- 项目已在GitHub开源,并同步上线HuggingFace,延续开源精神。
🏷️
标签
➡️