小红花·文摘

研究比较了NLP模型生成反事实样本的能力和对数据增强的影响。发现LLMs生成的反事实样本改动较大，与人工生成的样本相比效果差。LLMs对偏标签数据的评估偏向性明显，而GPT4更稳健，与自动评价指标相关性好。研究结果揭示了限制和未来研究方向。