Frytea's Blog ·

在 Linux 和 M1 macOS 上自托管运行清华开源语言模型 ChatGLM-6B

💡 原文中文，约5500字，阅读约需13分钟。

📝

内容提要

ChatGLM-6B是清华THUDM开源的中英双语对话模型，基于GLM架构，拥有62亿参数，支持在消费级显卡上本地部署并进行INT4量化。模型经过大量中英双语训练，优化了中文问答能力。文章介绍了在Mac和Linux环境下的安装与运行方法，包括依赖安装、模型下载及GPU加速配置。

🎯

🔎

ChatGLM-6B模型在消费级显卡上可以本地部署，但对于内存和显存有一定要求。使用INT4量化后，最低只需6GB显存，这使得普通用户也能尝试运行该模型。然而，在M1 Mac上，由于内存限制，用户可能需要通过交换内存来加载模型，这会影响运行效率。

在M1 MacOS上运行ChatGLM-6B需要手动拉取模型并进行环境配置，使用MPS后端可以实现GPU加速。用户需注意，配置过程中的每一步都至关重要，尤其是修改模型加载方式和解除内存限制，以避免系统崩溃。

在Linux环境下，虽然可以使用CPU进行推理，但速度较慢且内存占用较高。建议使用量化后的模型以减少内存需求。对于没有GPU的用户，运行效率可能会显著降低，因此在选择部署环境时需谨慎考虑。

❓

ChatGLM-6B是清华THUDM开源的中英双语对话模型，基于GLM架构，拥有62亿参数。

在M1 MacOS上，需要拉取代码仓库，安装依赖，手动下载模型，并配置MPS后端以实现GPU加速。

ChatGLM-6B支持在消费级显卡上本地部署，最低只需6GB显存，并可在M1 Mac和Linux环境下运行。

在Linux环境下，可以使用CPU进行推理，但速度较慢，建议使用量化后的模型以减少内存占用。

ChatGLM-6B经过大量中英双语训练，优化了中文问答能力，能够生成符合人类偏好的回答。

需要安装PyTorch-Nightly，配置MPS后端，并在代码中修改模型加载方式以使用GPU。

🏷️