BriefGPT - AI 论文速递 ·

考虑累加器的后训练量化

💡 原文中文，约1700字，阅读约需5分钟。

📝

内容提要

本文研究了神经网络量化对损失函数结构的影响，提出了量化感知微调（QFT）和累加器感知量化（A2Q）等多种量化方法，以提高模型性能。实验表明，细粒度量化和PTQ方法对准确性至关重要，并提出了新的权重取整机制FlexRound和改进的A2Q+，显著提升了模型在边缘设备上的推理效率和准确性。

🎯

❓

量化感知微调（QFT）是一种通过联合端对端微调实现4位权重量化的方法，能够获得与最优结果相当的效果。

细粒度量化和PTQ方法是获得良好准确性所必需的，粗粒度量化的高比特位比低比特位更强大。

FlexRound机制通过元素除法实现对预训练权重的灵活量化，有效提高了模型性能。

A2Q通过约束模型权重避免低精度累加器的溢出问题，提升了资源利用率。

A2Q+显著改善了累加器位宽和模型准确性之间的权衡，缓解了累加器约束而不损害溢出避免。

EdgeQAT通过动态量化不同位宽的令牌，实现边缘设备上的推理加速。

🏷️

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2，且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)
GR00T N1.6和N1.7是NVIDIA开发的视觉语言模型（VLM），用于机器人控制。N1.6改进了模型结构，支持灵活分辨率，并引入新数据集；N1.7...
Christophe Pettus: REPACK CONCURRENTLY: pg_squeeze Gets a Promotion
PostgreSQL 19 brings REPACK CONCURRENTLY, a native alternative to pg_repack t...
索尼的DualSense控制器几乎降价30%
Sony has a tradition of marking down its PlayStation 5 hardware a couple of t...
Robinhood将允许您的AI代理进行股票交易，赚取（或损失）大量资金
Robinhood is opening its trading platform to AI agents. In an announcement on...
使用TensorFlow和PyCharm为Reachy Mini构建实时物体检测应用
This is a guest post from Iulia Feroli, founder of the Back To Engineering Yo...
The VibeSec Reckoning
Vibe coding has significantly accelerated software prototyping but AI a...