小红花·文摘

本研究利用大型语言模型生成对比集，解决了标准NLP基准中数据集伪影和虚假相关性的问题。结果显示，经过对比集微调后，模型在系统扰动示例上的表现显著增强，同时保持了标准测试的准确性，并提升了在新扰动上的泛化能力。