DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

DeepSeek新模型DeepSeek-OCR通过视觉压缩文本,显著提升了长文本处理效率。在OmniDocBench基准测试中,压缩率小于10倍时准确率达到97%。研究者提出的“上下文光学压缩”方法模拟人类记忆机制,可能为AGI提供新思路。

🎯

关键要点

  • DeepSeek新模型DeepSeek-OCR通过视觉压缩文本,提升长文本处理效率。

  • 在OmniDocBench基准测试中,压缩率小于10倍时准确率达到97%。

  • 研究者提出的“上下文光学压缩”方法模拟人类记忆机制,可能为AGI提供新思路。

  • DeepSeek-OCR模型在处理长文本时,使用少量视觉token表示大量文本token,降低计算开销。

  • DeepEncoder编码器负责将图片转成高度压缩的视觉token,采用局部处理、压缩和全局理解的设计。

  • DeepSeek-OCR支持多种输入模式,灵活应对不同压缩比需求。

  • 研究团队提出用光学压缩模拟人类的遗忘机制,可能构建无限长上下文的架构。

  • 该模型在GitHub上获得了3.3K star,受到广泛好评。

延伸问答

DeepSeek-OCR模型的主要功能是什么?

DeepSeek-OCR模型通过视觉压缩文本,显著提升了长文本处理效率。

DeepSeek-OCR在OmniDocBench基准测试中的表现如何?

在OmniDocBench基准测试中,压缩率小于10倍时准确率达到97%。

什么是上下文光学压缩?

上下文光学压缩是一种模拟人类记忆机制的文本压缩方法,旨在通过视觉方式压缩信息。

DeepSeek-OCR模型如何降低计算开销?

该模型使用少量视觉token表示大量文本token,从而降低计算开销。

DeepSeek-OCR支持哪些输入模式?

DeepSeek-OCR支持多种输入模式,灵活应对不同压缩比需求。

DeepSeek-OCR模型的开发团队有哪些成员?

开发团队包括Haoran Wei、Yaofeng Sun和Yukun Li,他们在多个模型研发中都有贡献。

➡️

继续阅读