小红花·文摘

该文介绍了一种量化感知的低秩自适应算法，用于将大型语言模型权重量化以减少时间和内存使用，并将 LLM 和辅助权重自然地集成到一个量化模型中，而不损失准确性。作者应用该算法于 LLaMA 和 LLaMA2 模型系列，并在不同的微调数据集和下游场景中验证了其有效性。

QA-LoRA：大型语言模型的量化感知低秩适应

BriefGPT - AI 论文速递 ·

本文提出了一种在微控制器上部署低误差深度神经网络的方法，通过混合低位宽压缩和均匀量化，以整数运算建模推理图，摆脱了资源受限的内存和计算限制。使用量化感知的重训练将虚假量化图转换为整数推理模型，并使用ICN图层将该模型部署到只有2MB的FLASH存储器和512kB的RAM设备上。实验结果表明，Top1精度提高了8％，达到了68％。

一种具有极限边缘智能设备学习能力的精确可扩展 RISC-V DNN 处理器

BriefGPT - AI 论文速递 ·