DeepSeek-OCR——上下文视觉压缩:同等长度下,通过更少的视觉token解决长上下文处理难题
📝
内容提要
本文介绍了DeepSeek团队开发的DeepSeek-OCR模型,这是一种创新的视觉-语言模型,专注于通过视觉模态实现高效的文本信息压缩。该模型采用DeepEncoder架构,结合窗口注意力和全局注意力机制,在高分辨率输入下保持低内存消耗和少量视觉token。实验显示,在9-10倍文本压缩下达到96%+的OCR精度,在20倍压缩下约60%精度。模型支持多种分辨率输入,并具备解析图表、化学式等...
➡️