量子位 ·

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

智谱推出的视觉Token方案Glyph通过将长文本转化为图像，显著提高信息密度，减少Token数量，提升处理效率。实验表明，Glyph在长上下文任务中实现了3-4倍的Token压缩，同时保持了准确度，展示了视觉Token在AI中的潜力。

🎯

关键要点

智谱推出的视觉Token方案Glyph通过将长文本转化为图像，显著提高信息密度，减少Token数量，提升处理效率。
Glyph在长上下文任务中实现了3-4倍的Token压缩，同时保持了准确度，展示了视觉Token在AI中的潜力。
随着LLM能力提升，用户对长上下文的需求增加，但扩充上下文会显著增加算力消耗。
传统的扩展位置编码、改造注意力机制和检索增强RAG方案都未能有效解决上下文冗长的问题。
Glyph通过将文本转化为图像，提升信息密度，使得模型能够处理更长的文本。
Glyph的训练流程包括持续预训练、LLM驱动的渲染搜索和后训练，确保模型在视觉Token处理上的能力。
实验结果显示，Glyph在多项长上下文基准测试中实现了3-4倍的Token压缩率，并提升了处理速度。
Glyph的训练数据主要来自渲染后的文本图像，但在多模态任务上也表现出色，证明了其强大的泛化潜力。
视觉Token的出现可能重塑LLM的信息处理方式，未来像素可能取代文本成为AI的基本信息单元。
OCR技术的引入使得AI的处理效率大幅提升，降低了模型训练的门槛。

❓

延伸问答

Glyph的主要功能是什么？

Glyph的主要功能是将长文本转化为图像，从而显著提高信息密度，减少Token数量，提升处理效率。

Glyph如何提高Token处理效率？

Glyph通过将文本转化为图像，使用视觉Token来提升信息密度，使得模型能够处理更长的文本，减少了Token的数量。

Glyph的训练流程包括哪些阶段？

Glyph的训练流程包括持续预训练、LLM驱动的渲染搜索和后训练三个阶段。

Glyph在长上下文任务中的表现如何？

Glyph在多项长上下文基准测试中实现了3-4倍的Token压缩率，同时保持了与主流模型相当的准确度。

视觉Token的出现对AI有什么潜在影响？

视觉Token的出现可能重塑LLM的信息处理方式，未来像素可能取代文本成为AI的基本信息单元。

Glyph与DeepSeek-OCR有什么相似之处？

Glyph与DeepSeek-OCR的目标相似，都是通过视觉方式解决LLM上下文冗长的问题，提升处理效率。

🏷️

继续阅读

Hyland持续扩张将内容创新云带到亚太地区
Hyland与亚马逊云服务合作，将其AI原生内容创新云扩展至亚太地区，特别是悉尼，旨在提升医疗、金融、保险、教育和政府等行业的内容管理效率，提供更高性能和...
Exein首次参展台北国际电脑展
意大利嵌入式网络安全公司Exein首次参展台北国际电脑展，展示其在AI、边缘计算和数据中心领域的网络安全解决方案。Exein已在亚太地区设立运营中心，并计...
老黄的Token经济学翻车了！微软亚马逊通通跳车
近期，企业对AI Token的使用进行了反思，发现过度使用并不一定带来价值，反而导致高额账单。亚马逊、微软等公司开始收紧AI使用政策，关注实际产出而非To...
研究发现，OpenAI、Anthropic、Google、Amazon 和 xAI 在一种攻击类型上均未能通过
思科研究发现，企业在评估AI模型时使用的安全基准存在问题。多轮对话攻击的成功率显著高于单轮对话，且单轮表现无法有效预测多轮韧性。不同模型在多轮攻击下的表现...
2026.06.02 16:44
网络流行文化通过缩短句子产生了“梗”，而大型语言模型则通过连词和副词的堆叠构建逻辑和情感。这种缩短与扩展的过程导致了准确性、意义和美感的缺失。
运动相机制造商GoPro因存储芯片价格飙涨而面临破产正在探索出售或合并方案
全球知名运动相机制造商GoPro面临破产，主要因存储芯片价格飙涨导致利润减少。公司营收下降26%，可能违约贷款。GoPro正在考虑出售或合并业务，并计划裁员23%。