本研究利用大型语言模型生成对比集,解决了标准NLP基准中数据集伪影和虚假相关性的问题。结果显示,经过对比集微调后,模型在系统扰动示例上的表现显著增强,同时保持了标准测试的准确性,并提升了在新扰动上的泛化能力。
本研究探讨了大型预训练语言模型在标准数据集上表现良好但在对比集上表现不佳的问题。通过引入复杂的对比集进行训练,提出了一种提高模型鲁棒性的方法,使其在对比集上的准确率接近90%。强调了多样化和挑战性训练数据的重要性。
完成下面两步后,将自动完成登录并继续当前操作。