大型语言模型在零样本和小样本任务中表现优异,但可能受到任务污染的影响。研究显示,LLMs在训练数据创建日期之前的数据集上表现良好,表明存在任务污染。通过检查训练数据,发现更多证据。在无任务污染的分类任务中,LLMs在零样本和小样本设置下的改进有限。
完成下面两步后,将自动完成登录并继续当前操作。