苏洋博客 ·

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

💡 原文中文，约8900字，阅读约需22分钟。

📝

内容提要

本文介绍了一种非常见的整型位数的模型量化方案，作者使用自己制作的量化程序将YI-34B模型转换为GGML格式，并进行了量化操作。量化后的模型尺寸大大减小，可以在CPU环境和CPU&GPU环境中进行推理。作者还介绍了模型量化的准备材料和具体操作步骤。最后，作者鼓励大家玩模型，感谢开源模型创作者和分享者的努力。

🎯

关键要点

本文介绍了一种整型位数的模型量化方案，旨在降低开源模型的硬件门槛。
模型量化技术可以显著减少模型尺寸，使其在CPU和GPU环境中运行。
量化后的模型效果可能会有所损失，但可以通过选择合适的量化位数来平衡效果和资源消耗。
准备模型量化需要两个素材：模型文件和计算设备。
GGUF是GGML的全新替代型，支持多种模型量化格式。
使用convert.py脚本将非GGML格式的文件转换为GGML格式，以便进行量化。
量化程序支持多种量化类型，建议使用Q4_K和Q5_K等代指名称进行模型转换。
量化后模型的使用非常简单，可以通过命令行或Web UI进行调用。
作者鼓励大家尝试模型，并感谢开源模型创作者和分享者的努力。

🏷️

继续阅读

为智能体可信协作提供新方案蚂蚁数科登顶以太坊全球基准评测
蚂蚁数科的零知识证明虚拟机zkDTVM在以太坊的EthProofs基准测试中将区块证明速度压缩至3.7秒，打破业界纪录，显示其区块链技术的全球领先地位。该...
69个开源AI工具大盘点2026年4月版 - 省下每年5万美金订阅费的开源方案
2026年4月，推荐了69个开源AI工具，包括Ollama、vLLM、LM Studio等，适用于本地运行大模型和推理引擎，帮助用户每年节省高达5万美元的...
Visual Studio 2026 18.6 Insiders 3 默认启用 TypeScript 7 Beta
Visual Studio 2026 18.6 Insiders 3 默认启用 TypeScript 7 Beta，提升了编译速度和减少了内存使用。大型项...
Anthropic的Claude Security从封闭预览中推出，扫描您的代码库以发现安全漏洞
Anthropic推出了Claude Security，这是一个用于扫描代码库安全漏洞的工具，现已进入Claude Enterprise客户的测试阶段。该...
免费学习最受欢迎的技术技能
From April 30 - May 10, Zero To Mastery's entire course catalogue is 100% free.
埃隆·马斯克与山姆·阿尔特曼关于OpenAI未来的法律斗争
埃隆·马斯克与山姆·阿尔特曼之间的法律斗争即将开始，涉及OpenAI的未来。马斯克指控OpenAI偏离了最初使命，追求利润，并要求解除阿尔特曼和布罗克曼的...

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化

内容提要

关键要点

标签

继续阅读