将工人视角融入 MTurk NLP 标注实践
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文调查了45篇与开放式文本生成相关的论文,发现大部分未报告Amazon Mechanical Turk任务的关键细节,影响了可重复性。通过故事评估实验,发现AMT工作者无法区分模型生成的文本和人类生成的参考文本。同时展示模型生成的输出和人类生成的参考文本时,工人的判断能力得到了提高。
🎯
关键要点
- 调查了45篇与开放式文本生成相关的论文。
- 大多数论文未报告Amazon Mechanical Turk任务的关键细节,影响了可重复性。
- 进行故事评估实验,发现AMT工作者无法区分模型生成的文本和人类生成的参考文本。
- 使用严格的资格筛选器后,AMT工人的判断能力仍然有限。
- 同时展示模型生成的输出和人类生成的参考文本可以提高工人的判断能力。
➡️