本文分析了不同预训练模型的能力表现,确认了670亿参数模型在特定下游指标上的相似训练动态。研究了预训练数据选择对下游性能的影响,提出了改进自然语言处理任务性能预测的方法,并探讨了低资源语言模型的微调和测试挑战。通过ProxyLM框架,降低了多语言任务的计算成本,并提出了基于语言数据预测模型性能的新方法。
本文介绍了一种使用图表征学习的方法来解决多视图表格数据的无监督建模问题,并提出了一种新的分层图自编码器LEGATO,能够动态地汇集多个视图的信息,并通过定位信息对输入进行建模,提高下游性能。
通过广泛实验,研究发现较少的令牌并不会提高下游性能,对有效的标记化原因产生怀疑。评估了标记化的三个阶段的设计决策,强调了预标记化和使用BPE进行初始化词汇构建的好处。
本论文提出了一种阶段递增训练的替代框架RaPTr,通过逐步增加路径长度,在对BERT和UL2语言模型进行更好的预训练损失的同时减少FLOPs。RaPTr在UL2上表现出更好的下游性能,对QA任务和SuperGLUE的改进幅度可达1-5%。理论基础证明了子网络在各阶段的复杂性递增,以及由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。
本文评估了扩散模型生成图像的方法,并研究了新的扩展方式以评估它们对数据增强的益处。研究发现,将扩散模型个性化到目标数据的方法优于简单的提示策略,但使用扩散模型的训练数据,通过最近邻检索程序,直接提高下游性能。扩散模型在数据增强方面有局限性,但在生成新训练数据方面有潜力,以提高下游视觉任务的性能。
本文评估了扩散模型生成图像的方法,并研究了新的扩展方式对数据增强的益处。研究发现,个性化扩散模型到目标数据的方法优于简单的提示策略,但使用扩散模型的训练数据可以直接提高下游性能。研究揭示了扩散模型在数据增强方面的局限性,同时也突显了其在生成新训练数据方面的潜力,以提高下游视觉任务的性能。
本文研究了使用单个消费级GPU训练一天的遮蔽语言模型的下游性能,并通过修改预训练流程证明了性能与大型计算环境下的缩放定律密切相关。
完成下面两步后,将自动完成登录并继续当前操作。