BriefGPT - AI 论文速递 ·

CoMERA：基于等级自适应张量优化的计算和内存高效训练

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本研究提出了Gradient Low-Rank Projection (GaLore)训练策略，实现了大规模语言模型的全参数学习，优化器状态内存使用减少65.5%。同时，针对深度学习推荐模型的内存容量问题，提出了Tensor Train分解，显著压缩模型大小而不影响准确性。

🎯

本研究提出了Gradient Low-Rank Projection (GaLore)训练策略，实现了大规模语言模型的全参数学习。
GaLore优化器状态内存使用减少了65.5%，在多项任务上保持了效率和性能。
在具有24GB内存的消费级GPU上（如NVIDIA RTX 4090）进行7B模型的预训练是可行的。
针对深度学习推荐模型的内存容量问题，提出了Tensor Train分解，显著压缩模型大小。
在Kaggle和Terabyte数据集上，TT-Rec及其核心部件TT-EmbeddingBag实现了117倍和112倍的模型大小压缩，且没有影响准确性或训练时间。

❓

GaLore训练策略实现了大规模语言模型的全参数学习，并将优化器状态内存使用减少了65.5%。

在具有24GB内存的消费级GPU上，如NVIDIA RTX 4090，可以进行7B模型的预训练。

Tensor Train分解显著压缩了模型大小，解决了深度学习推荐模型的内存容量问题，同时不影响准确性。

TT-Rec及其核心部件TT-EmbeddingBag在Kaggle和Terabyte数据集上实现了117倍和112倍的模型大小压缩，且没有影响准确性或训练时间。

GaLore训练策略在多项任务上保持了效率和性能，展示了其广泛的适用性。

使用GaLore训练策略可以显著提高内存效率，优化器状态内存使用减少了65.5%。

🏷️