本文探讨了预训练模型的三种主要目标:自回归语言建模(GPT)、掩码语言建模(BERT)和去噪序列到序列(T5/BART)。每种方法在训练任务上有所不同,导致模型在生成、理解和条件生成能力上的差异。GPT专注于续写,BERT擅长理解,而T5/BART兼顾生成与理解。最终,GPT因其统一接口和扩展性成为主流。
自监督学习是自然语言处理和生成AI的重要进展,通过利用原始数据的内在结构进行训练,无需人工标注。常见任务包括掩码语言建模和下一个标记预测,广泛应用于BERT和ChatGPT等语言模型的预训练。
本文提出了一种新颖的置信度正则化方法,旨在解决掩码语言建模中因输入文本长度短而导致的模型过度自信问题。实验结果显示,该方法在GLUE和SQuAD数据集上提高了准确性并降低了校准误差。
本研究提出了一种新方法,通过掩码语言建模头使BERT等编码器模型能够进行生成分类。该方法在零-shot分类和知识任务上表现优越,具有广泛应用潜力。
本文提出了一种新的混合训练目标,将掩码语言建模与因果语言建模相结合,克服了语言模型训练的局限性。实验结果表明,混合预训练显著优于单独使用掩码或因果模型。
本文介绍了Lil-Bevo模型在BabyLM挑战中的表现。通过三种预训练方法,模型在特定任务上优于随机猜测,但仍低于大型语言模型。研究表明,短序列训练效果更佳,掩码语言建模对某些任务有帮助。尽管显示出潜力,仍需进一步研究以提升性能。
本文介绍了一种名为Mask-tuning的训练方法,通过将掩码语言建模(MLM)训练目标整合到微调过程中,提高了预训练语言模型(PLMs)的泛化能力。研究结果表明,Mask-tuning超越了当前最先进的技术,并增强了PLMs在离群数据集上的泛化能力,同时提高了它们在分布数据集上的性能。
完成下面两步后,将自动完成登录并继续当前操作。