实时互动网 ·

GLM-4.6V开源：从看懂图片到自动完成任务

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

智谱推出GLM-4.6V系列多模态大模型，包括基础版和轻量版，支持128k tokens上下文窗口，具备原生工具调用能力，优化视觉理解。相比前代，价格降低50%，并提供免费轻量版。该模型在多模态任务中表现优异，开源资源已在主流社区发布，便于开发者集成。

🎯

🔎

GLM-4.6V系列通过原生工具调用能力，显著提升了多模态任务的处理效率。与传统模型相比，它能够直接处理图像和文档等多模态输入，减少了信息损失和复杂度。这一设计使得模型在智能图文混排和视觉购物等场景中表现更加出色，适合需要高效视觉理解的应用。

智谱的GLM-4.6V系列开源资源包括模型权重和推理代码，极大地方便了开发者的集成与应用。这种开放策略不仅促进了技术的传播，也为研究者提供了丰富的实验基础，能够加速多模态技术的创新与发展。

GLM-4.6V系列相比前代产品价格降低50%，并提供免费轻量版，极大地降低了使用门槛。这一变化使得更多企业和开发者能够尝试和应用这一先进技术，推动多模态应用的普及与发展。

❓

GLM-4.6V系列包括基础版GLM-4.6V（106B-A12B）和轻量版GLM-4.6V-Flash（9B）。

GLM-4.6V支持128k tokens的上下文窗口。

GLM-4.6V系列的价格降低了50%。

GLM-4.6V在多模态任务中表现优异，取得了显著提升。

开源资源包括模型权重、推理代码与在线调用能力。

GLM-4.6V原生支持多模态工具调用，减少信息损失和工程复杂度，优化视觉理解。

🏷️