研究比较了NLP模型生成反事实样本的能力和对数据增强的影响。发现LLMs生成的反事实样本改动较大,与人工生成的样本相比效果差。LLMs对偏标签数据的评估偏向性明显,而GPT4更稳健,与自动评价指标相关性好。研究结果揭示了限制和未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。