小红花·文摘

本文分析了不同预训练模型的能力表现，确认了670亿参数模型在特定下游指标上的相似训练动态。研究了预训练数据选择对下游性能的影响，提出了改进自然语言处理任务性能预测的方法，并探讨了低资源语言模型的微调和测试挑战。通过ProxyLM框架，降低了多语言任务的计算成本，并提出了基于语言数据预测模型性能的新方法。

大型语言模型的协同性能预测

BriefGPT - AI 论文速递 ·

本文介绍了一种使用图表征学习的方法来解决多视图表格数据的无监督建模问题，并提出了一种新的分层图自编码器LEGATO，能够动态地汇集多个视图的信息，并通过定位信息对输入进行建模，提高下游性能。

基于自编码器的通用目标表示学习方法用于客户嵌入

BriefGPT - AI 论文速递 ·

通过广泛实验，研究发现较少的令牌并不会提高下游性能，对有效的标记化原因产生怀疑。评估了标记化的三个阶段的设计决策，强调了预标记化和使用BPE进行初始化词汇构建的好处。

分词不仅仅是压缩

BriefGPT - AI 论文速递 ·

本论文提出了一种阶段递增训练的替代框架RaPTr，通过逐步增加路径长度，在对BERT和UL2语言模型进行更好的预训练损失的同时减少FLOPs。RaPTr在UL2上表现出更好的下游性能，对QA任务和SuperGLUE的改进幅度可达1-5％。理论基础证明了子网络在各阶段的复杂性递增，以及由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。

通过渐进子网络实现高效的分步预训练

BriefGPT - AI 论文速递 ·

本文评估了扩散模型生成图像的方法，并研究了新的扩展方式以评估它们对数据增强的益处。研究发现，将扩散模型个性化到目标数据的方法优于简单的提示策略，但使用扩散模型的训练数据，通过最近邻检索程序，直接提高下游性能。扩散模型在数据增强方面有局限性，但在生成新训练数据方面有潜力，以提高下游视觉任务的性能。

序列推荐的扩散增强

BriefGPT - AI 论文速递 ·

本文评估了扩散模型生成图像的方法，并研究了新的扩展方式对数据增强的益处。研究发现，个性化扩散模型到目标数据的方法优于简单的提示策略，但使用扩散模型的训练数据可以直接提高下游性能。研究揭示了扩散模型在数据增强方面的局限性，同时也突显了其在生成新训练数据方面的潜力，以提高下游视觉任务的性能。

基于扩散的图像标注及检索在文化遗产中的应用

BriefGPT - AI 论文速递 ·

本文研究了使用单个消费级GPU训练一天的遮蔽语言模型的下游性能，并通过修改预训练流程证明了性能与大型计算环境下的缩放定律密切相关。

优化基于 Transformer 的机器翻译模型，以便在单个 GPU 训练中达到最佳性能：超参数淘汰研究

BriefGPT - AI 论文速递 ·