量子位 ·

首次系统评估Qwen3在量化下的鲁棒性：8bit下仍保持近乎无损性能

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

研究团队首次系统评估了Qwen3在低比特量化下的鲁棒性，发现其在8比特时性能接近无损，但在4比特及以下时显著下降，尤其在复杂任务中。Qwen3的预训练使其对量化敏感，需要创新量化技术以保持性能。

🎯

关键要点

研究团队首次系统评估Qwen3在低比特量化下的鲁棒性。
Qwen3在8比特时性能接近无损，但在4比特及以下时显著下降，尤其在复杂任务中。
Qwen3的预训练使其对量化敏感，需要创新量化技术以保持性能。
Qwen3是基于Transformer架构的开源自回归大型语言模型，参数规模从6亿到2350亿不等。
低比特量化技术能够在资源受限设备上实现高效推理，但会导致性能下降。
团队测试了5种后训练量化技术，涵盖从1比特到8比特的位宽。
在8比特时，Qwen3保持接近无损性能，但在4比特时性能显著下降。
较大模型在量化下表现出更强的稳定性，Qwen3-14B在4比特下的性能下降仅1%。
与LLaMA3相比，Qwen3在低比特量化下表现出更显著的性能下降。
研究结果表明，当前量化技术需要进一步创新，以更好地保留Qwen3的能力。

❓

延伸问答

Qwen3在8比特量化下的性能如何？

Qwen3在8比特量化时性能接近无损，表现出良好的鲁棒性。

Qwen3在4比特量化时的性能表现如何？

在4比特及以下时，Qwen3的性能显著下降，尤其在复杂任务中。

Qwen3的预训练对量化性能有何影响？

Qwen3的预训练使其对量化敏感，导致在低比特量化时性能下降。

研究团队测试了哪些量化技术？

团队测试了5种后训练量化技术，包括RTN、GPTQ、AWQ、SmoothQuant和BiLLM。

Qwen3与LLaMA3在量化性能上有何比较？

与LLaMA3相比，Qwen3在低比特量化下表现出更显著的性能下降。

未来的量化研究方向是什么？

未来计划评估更高级的量化方法，如基于通道重排序和旋转的量化策略。

🏷️

继续阅读

史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...
KVarN：华为用于KVCache量化的原生vLLM后端
华为开源的KVarN是一种KV Cache量化技术，通过Hadamard旋转和双轴方差归一化，有效解决大模型推理中的显存瓶颈。该技术在2-bit量化下保持...
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
10个Hermes黑客技巧变24小时工作系统
本文介绍了将Hermes智能体转变为24小时自动化系统的10种方法，包括任务控制中心、事件触发器、定时任务、目标指令、子智能体、工作区、看板、技能包、网络...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...