量子位 ·

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

百度推出的Unlimited OCR模型在长文档处理上刷新了SOTA，采用参考滑动窗口注意力机制，模拟人类阅读方式，解决了传统OCR的显存膨胀问题。该模型在OmniDocBench上表现优异，推理效率提升35%，并计划扩展到语音识别和机器翻译等任务。

🎯

🔎

Unlimited OCR采用的参考滑动窗口注意力机制（R-SWA）是其核心创新之一。该机制模仿人类的阅读方式，通过保持固定长度的KV Cache，有效避免了显存膨胀的问题。这种设计使得模型在处理长文档时，能够持续保持高效的推理速度，避免了传统OCR在长文本解析中常见的性能下降。

Unlimited OCR不仅解决了OCR的基本问题，还为注意力机制的改进提供了新思路。团队计划将R-SWA扩展到语音识别和机器翻译等领域，表明OCR技术的应用潜力远不止于文字识别。这一发展方向可能会推动更多AI应用的创新，值得关注。

随着越来越多的公司投入OCR技术的研发，行业竞争愈发激烈。Unlimited OCR的推出不仅是技术的进步，更是对数据价值的重新认识。企业面临的挑战是如何有效提取和利用沉睡在文档中的信息，OCR技术将成为连接数据与智能决策的重要桥梁。

❓

Unlimited OCR模型的主要创新点是采用参考滑动窗口注意力机制，模拟人类阅读方式，解决了传统OCR的显存膨胀问题。

Unlimited OCR能够像人一样连续阅读整本书，避免逐页处理带来的上下文重置问题，并在OmniDocBench上表现优异，推理效率提升35%。

Unlimited OCR通过固定长度的KV Cache管理方式，确保显存占用和计算成本不会随着文档长度增长。

Unlimited OCR的推理效率相比DeepSeek OCR提升约35%，且在生成6000个Token时延迟保持稳定。

Unlimited OCR计划扩展到语音识别和机器翻译等任务，OCR只是其应用的第一步。

Unlimited OCR不采用逐页重置的方式，而是通过参考滑动窗口注意力机制实现连续阅读，避免了传统OCR的上下文重置问题。

🏷️