小红花·文摘

本文研究了参数稀疏性对大规模数据集上Transformer模型的影响，发现最佳稀疏度随着训练数据量增加而增加。研究还涉及不同的稀疏结构和策略，揭示了权重稀疏性的能力和局限性，为提高计算效率提供了理论理解和实际意义。

关于特征叠加的缩放规律影响

BriefGPT - AI 论文速递 ·

研究发现，在大规模数据集上，参数稀疏性对Transformer模型的影响。随着训练数据量增加，最佳稀疏度增加，为提高计算效率提供理论理解和实际意义。

基于变形器的学习可证明具有低秩和稀疏性：一层分析

BriefGPT - AI 论文速递 ·

本文提出了一种 LoRA Dropout 机制，通过引入随机噪声和增加参数稀疏性，从稀疏正则化的角度证明了该机制的理论机制，并提供了泛化误差界限。实验证明该机制在自然语言处理任务中提高模型准确性和校准性方面有效。

LoRA 丢弃法作为过拟合控制的稀疏正则化器

BriefGPT - AI 论文速递 ·

本文研究了参数稀疏性对Transformer模型在大规模数据集上训练的影响，并确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的扩展定律。研究发现，在非零参数数量固定时，最佳稀疏度随着用于训练的数据量增加而增加。同时，研究还将扩展到了不同的稀疏结构和策略，揭示了权重稀疏性的能力和局限性，为提高计算效率提供了理论理解和实际意义。

关于联想记忆的缩放定律

BriefGPT - AI 论文速递 ·