BriefGPT - AI 论文速递 ·

L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ

💡 原文中文，约600字，阅读约需2分钟。

📝

内容提要

本文介绍了一种内存高效适应预训练语言模型的方法，通过迭代算法将预训练矩阵分解为高精度低秩部分和内存高效的量化部分。在微调过程中，只更新低秩部分，量化部分保持固定。通过整数线性规划形式动态配置量化参数，实现在总体存储器预算下的量化。实验结果表明，该方法在适应不同模型时优于其他基准方法，并能实现更激进的量化。

🎯

关键要点

提出了一种内存高效的预训练语言模型适应方法。
使用迭代算法将预训练矩阵分解为高精度低秩部分和内存高效的量化部分。
在微调过程中，量化部分保持固定，只有低秩部分被更新。
提出了量化部分的整数线性规划形式，动态配置量化参数。
探索了数据感知版本的算法，使用Fisher信息矩阵的近似加权矩阵分解过程。
在RoBERTa和LLaMA-2的实验中，LQ-LoRA优于QLoRA和GPTQ-LoRA基准。
LQ-LoRA能够学习一个2.5位的LLaMA-2模型，与使用4位QLoRA微调的模型竞争。
在语言建模校准数据集上微调时，LQ-LoRA可用于模型压缩，竞争全精度模型。

🏷️

继续阅读

TurboQuant：压缩和性能真的值得期待吗？
TurboQuant是谷歌推出的新算法库，旨在通过量化和压缩技术提高大型语言模型和向量搜索引擎的效率。它能将缓存内存消耗降低至3位，无需重新训练模型。采用...
大华股份深耕智能感知领域，推出驰光相机系列
大华股份推出驰光相机系列，利用AI技术提升智能感知能力，具备全天候、高可靠性，能精准识别车辆信息，适用于交通管理。该产品结合视觉感知与AI算法，提高交通事...
oni_geotherm
《缺氧》游戏中，玩家通过热量控制和资源转换生存。仿生人开局不需食物，利用排泄物和石油炼钢，石油作为冷却剂产生电能。游戏机制要求玩家掌控高低温，利用热交换和...
索尼试图解释其AI相机助手并不糟糕
索尼的AI相机助手在Xperia 1 XIII上的表现不佳，尽管公司声称该功能仅提供建议而不编辑照片。用户可以根据光线、深度和主题获得曝光、颜色和背景模糊...
EP215：AI代理的构成
AI代理由四个主要部分构成：大脑（LLM）、规划、工具和记忆。代理通过循环过程执行任务，使用工具并评估结果。REST、GraphQL和gRPC是三种API...
NPR的Manoush Zomorodi谈论过度科技生活
Manoush Zomorodi的新书《电气身体》探讨了科技对身体健康的影响，认为持续的连接生活方式正在损害健康。书中结合她的播客经验，强调科技对心理和身...

L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ

内容提要

关键要点

标签

继续阅读