蝈蝈俊 ·

不同显寸对应的可运行的模型大小 - 蝈蝈俊

💡 原文中文，约2600字，阅读约需6分钟。

📝

内容提要

在有限显存下，运行大型语言模型需平衡模型规模、量化精度和上下文长度。显存需求受模型参数、上下文缓存和系统开销影响，增加上下文长度会迅速消耗显存。选择合适的量化格式可提升性能。

🎯

关键要点

在有限显存下，运行大型语言模型需平衡模型规模、量化精度和上下文长度。
显存需求受模型参数、上下文缓存和系统开销影响，增加上下文长度会迅速消耗显存。
推理时显存需求计算公式为：显存需求 = (模型总参数量 * 量化密度) + 上下文缓存 + 系统开销。
系统开销通常在1GB到3GB之间，主要用于存储激活值、显存Buffer和计算Buffer。
量化密度影响每个参数占用的空间，BF16、Q8、Q4等不同精度对应不同的显存需求。
上下文缓存随着输入和输出文本长度变化，计算公式为：上下文缓存 ≈ 2 * 模型的层数 * 上下文长度 * 批处理大小 * 隐藏层维度 * 缓存精度。
上下文长度越长，占用的显存越多，8GB显存在上下文长度设置到32k或64k时会爆满。
BF16是大型语言模型训练的主流精度，能够在保证数值范围的同时减少内存和速度需求。
量化格式选择建议：追求极致效果用BF16/FP16，最佳平衡点从Q4_K_M或Q5_K_M开始尝试。
在有限显存下，需要在模型规模、量化精度和上下文长度之间进行动态权衡。

❓

延伸问答

如何计算推理时的显存需求？

推理时显存需求计算公式为：显存需求 = (模型总参数量 * 量化密度) + 上下文缓存 + 系统开销。

上下文长度对显存的影响是什么？

上下文长度越长，占用的显存越多，增加上下文长度会迅速消耗显存。

在有限显存下，如何选择量化格式？

建议追求极致效果用BF16/FP16，最佳平衡点从Q4_K_M或Q5_K_M开始尝试。

系统开销通常是多少？

系统开销通常在1GB到3GB之间，主要用于存储激活值、显存Buffer和计算Buffer。

量化密度如何影响显存需求？

量化密度影响每个参数占用的空间，不同精度对应不同的显存需求，例如BF16、Q8、Q4等。

在选择模型时需要考虑哪些因素？

需要在模型规模、量化精度和上下文长度之间进行动态权衡，以适应有限显存的条件。

🏷️

继续阅读

史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...
Gemma 4 QAT模型：优化移动设备和笔记本电脑的模型压缩效率
Gemma 4最近发布了优化的量化感知训练（QAT）检查点，提升了模型在移动设备上的效率，减少了压缩时的质量损失，显著降低了内存占用，适合在日常边缘设备上...
智源&清华合作成果登上Science：脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
研究表明，睡眠中的记忆重激活影响睡眠动态，提供了“记忆-睡眠”双向作用的新证据。智源研究院与清华大学的研究发现，负向记忆再激活加剧睡眠碎片化，而正向记忆再...
基于220种海洋细菌，科学家用基因组尺度模型重构异养微生物分类体系，挖出8类代谢菌群
研究揭示海洋异养微生物的代谢生态位，打破传统的富营养型与寡营养型二分法，提出8类代谢菌群。通过基因组分析，阐明其生长规律与资源竞争，推动全球碳循环研究，为...
微软MAI模型发布深度解读：前沿微调成企业AI护城河
微软在2026年推出的MAI系列模型标志着其从依赖OpenAI转向自建AI模型的战略转变。MAI模型涵盖推理、编码、图像和语音等多个领域，特别是通过“前沿...