Unweight是一种无损压缩系统,能够将大型语言模型(LLM)的权重缩小15-22%,而不影响输出质量。该系统通过在快速的片上内存中解压权重,避免了主内存的延迟,从而提高推理效率。在Llama-3.1-8B模型上实现了约30%的多层感知器权重压缩,节省了约3GB显存,降低了推理成本。Unweight专为数据中心的H100 GPU优化,支持多种执行策略以适应不同工作负载。
完成下面两步后,将自动完成登录并继续当前操作。