本文介绍了一种新型量化技术——半二次量化(HQQ),该技术无需校准数据即可加速大型模型的量化。在处理Llama-2-70B模型时,HQQ的速度比常用的GPTQ快50倍,并且在内存使用上表现优异,适合有限资源下的高效部署。
完成下面两步后,将自动完成登录并继续当前操作。