只需缓存一次:用于语言模型的解码器 - 解码器架构
原文中文,约400字,阅读约需1分钟。发表于: 。用一种仅缓存一次的解码器 - 解码器架构 (YOCO) 来构建大型语言模型,以降低 GPU 内存需求,并在模型尺寸扩大和词汇数量增加的情况下取得良好的性能,并提高针筒检索的准确性。
本文介绍了一种名为You Only Cut Once(YOCO)的数据增强方法,通过将图像分为两个部分进行增强,提高了样本数据的多样性和神经网络的识别能力。YOCO易于使用、不需要调参,并可免费提升增强项的性能。实验证明,YOCO适应不同的数据增强方法和神经网络架构,并在CIFAR和ImageNet数据集上带来显著性能提升。此外,YOCO还可为对比学习的预训练提供更强大的表示,并在多个下游任务中更好地转移。研究还分析了YOCO的多种变体在不同设置下的性能表现。