本文提出了一种内存高效的反向传播方法(MeBP),用于在资源受限的移动设备上微调大型语言模型(LLMs)。MeBP在内存使用和计算时间之间提供了更好的平衡,收敛速度更快,性能优于零阶优化(ZO)基线。实验证明,MeBP在iPhone 15 Pro Max上可实现对0.5B至4B参数的LLMs微调,内存消耗低于1GB。
本研究提出了AlphaGrad,一种内存高效的条件无状态优化器,旨在解决自适应方法(如Adam)的内存开销和超参数复杂性问题。AlphaGrad在强化学习基准中表现优异,尤其在有状态学习机制上展现了更高的稳定性和效率。
本文研究了带文本描述的多目标跟踪(RMOT),提出了一种名为MEX的内存高效模块,显著提升了跟踪器性能,尤其在内存受限环境中。研究表明,该方法提高了HOTA跟踪得分,并优化了内存使用和处理速度。
本研究探讨深度学习和大语言模型在科学研究中的应用,旨在解决传统方法的高成本和低效率问题。通过审查内存高效训练技术,展示了在降低存储需求的同时保持预测准确性。
Triton是一种基于Python的并行编程语言,旨在高效实现深度神经网络计算内核。本文介绍了如何使用Triton实现内存高效的Dropout,通过单个种子管理状态,减少内存占用并简化管理。示例代码展示了如何生成一致的Dropout掩码,从而提升性能。
本文介绍了LDAdam,一种内存高效的优化器,适用于大模型训练。它在低维子空间内自适应优化,同时探索完整参数空间,降低内存占用,并通过新规则实现语言模型的高效微调和预训练。
本研究提出了一种内存高效的去噪扩散概率模型,用于生成合成医疗图像,特别是肺结节的CT扫描。这解决了医疗影像数据稀缺的问题,提升了训练数据集的创建潜力,助力模型分割性能的提高。
本文介绍了一种内存高效的预训练语言模型适应方法,通过分解预训练矩阵并只更新低秩部分,实现了对模型的适应。该方法还提出了量化部分的整数线性规划形式,可以动态配置量化参数。实验结果表明,该方法优于其他基准方法,并能实现更激进的量化。
本文介绍了一种内存高效的预训练语言模型适应方法,通过矩阵分解和量化部分的更新,实现了对预训练模型的适应。实验结果表明,该方法优于其他基准方法,并能实现更激进的量化。
使用内存高效的大型语言模型进行文本精炼有助于提高可阅读性。本文研究了一种用于多文档摘要的通用的可控方法,利用大型语言模型来提炼文本。该方法在评估和人工评估中取得了有竞争力的结果。
本文介绍了一种内存高效的预训练语言模型适应方法,通过矩阵分解和量化部分的更新实现。实验结果表明,该方法在适应不同模型时优于其他基准方法,并能实现更激进的量化。
本文介绍了一种内存高效适应预训练语言模型的方法,通过迭代算法将预训练矩阵分解为高精度低秩部分和内存高效的量化部分。在微调过程中,只更新低秩部分,量化部分保持固定。通过整数线性规划形式动态配置量化参数,实现在总体存储器预算下的量化。实验结果表明,该方法在适应不同模型时优于其他基准方法,并能实现更激进的量化。
本研究提出了一种内存高效的混合特征哈希表NeRF框架,可改善内存利用率和减少训练时间,同时保持重建质量。实验结果表明,MF-NeRF在训练时间上更快且重建质量相似甚至更高。
ModuLoRA是一种内存高效的大型语言模型微调算法,支持在只有一个48GB的GPU上以3位或4位精度对具有65B参数的语言模型进行微调。该算法通过将任何用户指定的权重量化器与低秩适配器(LoRAs)结合使用,适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中,ModuLoRA在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能,并且在使用比现有方法更少的内存的同时,超过了流行的摘要任务的最新ROUGE分数。同时,该文还发布了一系列低精度模型,包括第一个3位指令跟随型Alpaca LLMs系列,作为LLMTOOLS的一部分。
完成下面两步后,将自动完成登录并继续当前操作。