小红花·文摘

本文介绍了新的微调策略HiFT和量化全参数调优框架QFT，显著降低了大型语言模型的GPU内存使用。研究表明，稀疏微调方法在性能上优于传统方法，但存在灾难性遗忘问题。提出了神经元级微调（NeFT），以实现更高效的模型更新，并强调了参数高效微调的必要性及未来研究方向。

HFT: 大型语言模型的半微调

BriefGPT - AI 论文速递 ·

该文介绍了一种高效的仅权重量化方法，以减少大型语言模型在实际应用中的内存需求和推断成本。该方法适用于混合专家模型和密集模型，并且无需额外的微调。通过自适应的量化粒度进行解决，展示了该方法的有效性。在大规模开源模型上评估，展示了最小的准确性损失，并在相同数量的 GPU 上实现了高达 3.65 倍的吞吐量。

QFT：量子化的低资源 LLM 全参数调整

BriefGPT - AI 论文速递 ·