小红花·文摘

PyTorch 2.8 发布，英特尔 CPU 性能更佳，助力 LLM 推理

实时互动网 ·

本研究系统评估了量化推理模型，发现W8A8或W4A16量化可实现无损，但较低比特宽度会影响准确性。模型大小、来源和任务难度是影响性能的关键因素，适当调整模型规模或推理步骤可提升性能。

Does Quantization Impair Inference Capability? An Empirical Study on Quantized Inference Models

BriefGPT - AI 论文速递 ·

ggml教程|mnist手写体识别量化推理

plus studio ·

本文介绍了一种在芯片上进行硬件感知的混合精度量化（OHQ）框架，通过构建量化感知管道和基于掩码的量化估计技术，实现了从硬件感知的混合精度量化。OHQ 在不需要额外计算设备和数据访问的情况下，对各种体系结构和压缩比率进行了量化推理，为 ResNet-18 和 MobileNetV3 分别实现了 70％和 73％的准确率，并且相较于部署中的 INT8，减少了 15～30％的延迟。

OHQ: 在芯片上的硬件感知量化

BriefGPT - AI 论文速递 ·