小红花·文摘

Unweight是一种无损压缩系统，能够将大型语言模型（LLM）的权重缩小15-22%，而不影响输出质量。该系统通过在快速的片上内存中解压权重，避免了主内存的延迟，从而提高推理效率。在Llama-3.1-8B模型上实现了约30%的多层感知器权重压缩，节省了约3GB显存，降低了推理成本。Unweight专为数据中心的H100 GPU优化，支持多种执行策略以适应不同工作负载。