小红花·文摘

大型语言模型在零样本和小样本任务中表现优异，但可能受到任务污染的影响。研究显示，LLMs在训练数据创建日期之前的数据集上表现良好，表明存在任务污染。通过检查训练数据，发现更多证据。在无任务污染的分类任务中，LLMs在零样本和小样本设置下的改进有限。