小红花·文摘

本文调查了45篇与开放式文本生成相关的论文，发现大部分未报告Amazon Mechanical Turk任务的关键细节，影响了可重复性。通过故事评估实验，发现AMT工作者无法区分模型生成的文本和人类生成的参考文本。同时展示模型生成的输出和人类生成的参考文本时，工人的判断能力得到了提高。