释放反事实增强数据在超出分布的泛化中的潜力
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文提出了一种新方案,使用编码向量空间的自动生成机制减少新数据生成的人工成本,对原始训练数据的一小部分进行注释即可获得明显的准确性改进。实验证明,该方法对情感分类有效,并在使用 IMDb 数据进行训练和 Amazon、SemEval 和 Yelp 等其他数据集进行 OOD 测试时,仅添加 1%手动反事实数据即可获得 + 3%的准确性提升。
🎯
关键要点
-
提出了一种新的解决方案,使用编码向量空间的自动生成机制。
-
该方案减少了新数据生成的人工成本。
-
只需对原始训练数据的一小部分(例如 1%)进行注释即可获得准确性改进。
-
实验证明该方法对情感分类有效。
-
在使用 IMDb 数据进行训练时,仅添加 1%手动反事实数据即可获得 + 3%的准确性提升。
-
相比于添加 100%的训练样本和其他反事实方法,该方法的准确性提高了 1.3%。
➡️