量子位 ·

DeepSeek新模型被硅谷夸疯了！用二维视觉压缩一维文字，单GPU能跑，“谷歌核心机密被开源”

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

DeepSeek新模型DeepSeek-OCR通过视觉压缩文本，显著提升了长文本处理效率。在OmniDocBench基准测试中，压缩率小于10倍时准确率达到97%。研究者提出的“上下文光学压缩”方法模拟人类记忆机制，可能为AGI提供新思路。

🎯

关键要点

DeepSeek新模型DeepSeek-OCR通过视觉压缩文本，提升长文本处理效率。
在OmniDocBench基准测试中，压缩率小于10倍时准确率达到97%。
研究者提出的“上下文光学压缩”方法模拟人类记忆机制，可能为AGI提供新思路。
DeepSeek-OCR模型在处理长文本时，使用少量视觉token表示大量文本token，降低计算开销。
DeepEncoder编码器负责将图片转成高度压缩的视觉token，采用局部处理、压缩和全局理解的设计。
DeepSeek-OCR支持多种输入模式，灵活应对不同压缩比需求。
研究团队提出用光学压缩模拟人类的遗忘机制，可能构建无限长上下文的架构。
该模型在GitHub上获得了3.3K star，受到广泛好评。

❓

延伸问答

DeepSeek-OCR模型的主要功能是什么？

DeepSeek-OCR模型通过视觉压缩文本，显著提升了长文本处理效率。

DeepSeek-OCR在OmniDocBench基准测试中的表现如何？

在OmniDocBench基准测试中，压缩率小于10倍时准确率达到97%。

什么是上下文光学压缩？

上下文光学压缩是一种模拟人类记忆机制的文本压缩方法，旨在通过视觉方式压缩信息。

DeepSeek-OCR模型如何降低计算开销？

该模型使用少量视觉token表示大量文本token，从而降低计算开销。

DeepSeek-OCR支持哪些输入模式？

DeepSeek-OCR支持多种输入模式，灵活应对不同压缩比需求。

DeepSeek-OCR模型的开发团队有哪些成员？

开发团队包括Haoran Wei、Yaofeng Sun和Yukun Li，他们在多个模型研发中都有贡献。

🏷️

继续阅读

有网友在谷歌搜索Codex被恶意广告欺骗带毒版直接窃取2万美元的加密货币
近期有网友在谷歌搜索Codex时被骗，损失高达2万美元的加密货币。攻击者利用谷歌商家域名创建钓鱼网站，诱导用户执行恶意安装命令，导致用户剪贴板内容被替换。...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...
谷歌800亿融资，巴菲特久违接盘，背后有什么鬼故事？
谷歌融资847.5亿美元并停止股票回购，以应对未来挑战并囤积现金。巴菲特的伯克希尔哈撒韦投资100亿美元，显示市场对AI的信心。科技巨头们纷纷转向AI基础...