预训练与后续设置中的偏见评估与去偏差之间的差距
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究发现遮盖语言模型评估指标间相关性弱,MLM在精调期间仍会重新学习社会偏见。研究结果强调现有MLM偏见评估措施的局限性,并提出了在下游应用中部署MLM的问题。
🎯
关键要点
- 本研究探讨了遮盖语言模型的内在和外在社会偏见评估指标之间的关系。
- 研究发现两种评估指标之间存在很弱的相关性。
- 不同方法去除偏见的MLM在下游任务的精调期间仍会重新学习社会偏见。
- 训练实例及其分配的标签中的社会偏见是内在和外在偏见评估测量之间差异的原因。
- 研究结果强调了现有MLM偏见评估措施的局限性。
- 使用现有评估措施在下游应用中部署MLM存在问题。
➡️