SmoothQuant是一个免费的后训练量化解决方案,可用于大型语言模型,实现8位权重和激活的量化,提高硬件效率,降低硬件成本,是一个民主化LLMs的解决方案。
该论文提出了一种名为ITA的新型加速器架构,可用于高效推理Transformer模型和相关模型。该架构利用8位量化和一种仅操作整数值的创新softmax实现,实现了低功耗和高效能。ITA与最先进的Transformer加速器相媲美,达到了16.9 TOPS/W和每平方毫米5.93 TOPS/mm²的性能。
完成下面两步后,将自动完成登录并继续当前操作。