小红花·文摘

该研究探讨了大型语言模型的后训练量化，特别是4位权重和8位激活（W4A8）量化，以提高计算效率。研究引入了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并使用混合数据格式（dINT）解决了W4A8量化中的下溢问题。通过对LLMs的严格评估，证明这些技术显著提高了任务准确度，并且与完整精度模型相当。通过与dINT兼容的算术单元的开发，进一步提升了2倍硬件效率。