小红花·文摘 - 小红花技术领袖俱乐部

该文介绍了一种高效的仅权重量化方法，以减少大型语言模型在实际应用中的内存需求和推断成本。该方法适用于混合专家模型和密集模型，并且无需额外的微调。通过分析量化大型语言模型的挑战和问题，并采用自适应的量化粒度进行解决，展示了该方法的有效性。同时，该方法实现了高效的 GPU 矩阵乘法和解量化算法，支持 fp16 或 bf16 激活与 int8 或 int4 权重的乘法。在评估中，该方法展示了最小的准确性损失，并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。

迈向端到端基于生成型大语言模型的 4 位推理

BriefGPT - AI 论文速递 ·

该研究提出了一种利用减法器提高CNN推理加速器性能的新方法，通过排序、分组和舍入权重来创建组合，从而可以在推理期间将一个乘法和加法运算替换为一个减法运算，从而降低功耗和面积，并通过增加或减少减法器的使用来控制性能增益和准确性损失的权衡。在MNIST数据集和LeNet-5上，采用舍入大小为0.05的设计可以实现32.03％的功耗节省和24.59％的面积减少，仅以0.1％的准确性损失为代价。

基于减法器的 CNN 推断加速器

BriefGPT - AI 论文速递 ·

该文介绍了一种检测和恢复已被篡改参数的方法，同时提出了一种自适应嵌入方法以提高信息容量。该方法在多个神经网络上测试，当修改率低于20%时，恢复性能表现出色。

利用优化实现对图像水印的自适应攻击

BriefGPT - AI 论文速递 ·