小红花·文摘

资源受限移动设备上大型语言模型的内存高效反向传播微调

Apple Machine Learning Research ·

本研究提出了AlphaGrad，一种内存高效的条件无状态优化器，旨在解决自适应方法（如Adam）的内存开销和超参数复杂性问题。AlphaGrad在强化学习基准中表现优异，尤其在有状态学习机制上展现了更高的稳定性和效率。

AlphaGrad：非线性梯度归一化优化器

BriefGPT - AI 论文速递 ·

本文研究了带文本描述的多目标跟踪（RMOT），提出了一种名为MEX的内存高效模块，显著提升了跟踪器性能，尤其在内存受限环境中。研究表明，该方法提高了HOTA跟踪得分，并优化了内存使用和处理速度。

内存高效的相对多目标跟踪方法

BriefGPT - AI 论文速递 ·

本研究探讨深度学习和大语言模型在科学研究中的应用，旨在解决传统方法的高成本和低效率问题。通过审查内存高效训练技术，展示了在降低存储需求的同时保持预测准确性。

人工智能科学中内存高效的大规模模型训练调查

BriefGPT - AI 论文速递 ·

Triton是一种基于Python的并行编程语言，旨在高效实现深度神经网络计算内核。本文介绍了如何使用Triton实现内存高效的Dropout，通过单个种子管理状态，减少内存占用并简化管理。示例代码展示了如何生成一致的Dropout掩码，从而提升性能。

【Triton 教程】低内存 Dropout

HyperAI超神经 ·

本文介绍了LDAdam，一种内存高效的优化器，适用于大模型训练。它在低维子空间内自适应优化，同时探索完整参数空间，降低内存占用，并通过新规则实现语言模型的高效微调和预训练。

LDAdam: An Adaptive Optimization Method Based on Low-Dimensional Gradient Statistics

BriefGPT - AI 论文速递 ·

本研究提出了一种内存高效的去噪扩散概率模型，用于生成合成医疗图像，特别是肺结节的CT扫描。这解决了医疗影像数据稀缺的问题，提升了训练数据集的创建潜力，助力模型分割性能的提高。

Evaluating the Utility of Memory-Efficient Medical Image Generation: A Study on Lung Nodule Segmentation

BriefGPT - AI 论文速递 ·

本文介绍了一种内存高效的预训练语言模型适应方法，通过分解预训练矩阵并只更新低秩部分，实现了对模型的适应。该方法还提出了量化部分的整数线性规划形式，可以动态配置量化参数。实验结果表明，该方法优于其他基准方法，并能实现更激进的量化。

通过最佳平衡实现精确高效的量化大语言模型微调

BriefGPT - AI 论文速递 ·

本文介绍了一种内存高效的预训练语言模型适应方法，通过矩阵分解和量化部分的更新，实现了对预训练模型的适应。实验结果表明，该方法优于其他基准方法，并能实现更激进的量化。

Q-GaLore: 基于 INT4 投影和层自适应低秩梯度的量化 GaLore

BriefGPT - AI 论文速递 ·

LaMDA：通过频谱分解的低维度调整进行大模型微调

BriefGPT - AI 论文速递 ·

使用内存高效的大型语言模型进行文本精炼有助于提高可阅读性。本文研究了一种用于多文档摘要的通用的可控方法，利用大型语言模型来提炼文本。该方法在评估和人工评估中取得了有竞争力的结果。

CEV-LM：控制编辑向量语言模型用于塑造自然语言生成

BriefGPT - AI 论文速递 ·

本文介绍了一种内存高效的预训练语言模型适应方法，通过矩阵分解和量化部分的更新实现。实验结果表明，该方法在适应不同模型时优于其他基准方法，并能实现更激进的量化。

通过信息保留实现 LLMs 的精确 LoRA 微调量化

BriefGPT - AI 论文速递 ·

本文介绍了一种内存高效适应预训练语言模型的方法，通过迭代算法将预训练矩阵分解为高精度低秩部分和内存高效的量化部分。在微调过程中，只更新低秩部分，量化部分保持固定。通过整数线性规划形式动态配置量化参数，实现在总体存储器预算下的量化。实验结果表明，该方法在适应不同模型时优于其他基准方法，并能实现更激进的量化。

L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ

BriefGPT - AI 论文速递 ·

本研究提出了一种内存高效的混合特征哈希表NeRF框架，可改善内存利用率和减少训练时间，同时保持重建质量。实验结果表明，MF-NeRF在训练时间上更快且重建质量相似甚至更高。

ModuLoRA是一种内存高效的大型语言模型微调算法，支持在只有一个48GB的GPU上以3位或4位精度对具有65B参数的语言模型进行微调。该算法通过将任何用户指定的权重量化器与低秩适配器(LoRAs)结合使用，适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中，ModuLoRA在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能，并且在使用比现有方法更少的内存的同时，超过了流行的摘要任务的最新ROUGE分数。同时，该文还发布了一系列低精度模型，包括第一个3位指令跟随型Alpaca LLMs系列，作为LLMTOOLS的一部分。

ModuLoRA: 将 3 位 LLMs 在消费级 GPU 上进行微调与模块量化器集成

BriefGPT - AI 论文速递 ·

资源受限移动设备上大型语言模型的内存高效反向传播微调

AlphaGrad：非线性梯度归一化优化器

内存高效的相对多目标跟踪方法

人工智能科学中内存高效的大规模模型训练调查

【Triton 教程】低内存 Dropout

LDAdam: An Adaptive Optimization Method Based on Low-Dimensional Gradient Statistics

Evaluating the Utility of Memory-Efficient Medical Image Generation: A Study on Lung Nodule Segmentation

通过最佳平衡实现精确高效的量化大语言模型微调

Q-GaLore: 基于 INT4 投影和层自适应低秩梯度的量化 GaLore

LaMDA：通过频谱分解的低维度调整进行大模型微调

CEV-LM：控制编辑向量语言模型用于塑造自然语言生成

通过信息保留实现 LLMs 的精确 LoRA 微调量化

L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ

学习哈希探测的紧凑神经图形原语

ModuLoRA: 将 3 位 LLMs 在消费级 GPU 上进行微调与模块量化器集成