本文调查了45篇与开放式文本生成相关的论文,发现大部分未报告Amazon Mechanical Turk任务的关键细节,影响了可重复性。通过故事评估实验,发现AMT工作者无法区分模型生成的文本和人类生成的参考文本。同时展示模型生成的输出和人类生成的参考文本时,工人的判断能力得到了提高。
完成下面两步后,将自动完成登录并继续当前操作。