BriefGPT - AI 论文速递 ·

什么是一篇好故事，以及我们如何衡量它？故事评估的综合调查

💡 原文中文，约1300字，阅读约需4分钟。

📝

内容提要

该研究探讨了故事生成技术，提出了多种评估方法和模型改进，包括基于BERT的无参考度量UNION和动态实体记忆增强方法。研究表明，自动评估指标与人工评估的相关性不足，强调了改进评估标准的重要性。通过新方法提升故事质量，结果显示基础模型LLaVA表现最佳。

🎯

❓

故事生成技术是指利用计算机系统在特定主题上生成连贯的文本段落，通常依赖于大规模数据集和复杂的模型结构。

UNION是一种基于BERT的无参考度量方法，能够更好地评估生成故事的质量，具有更高的相关性和可推广性。

动态实体记忆增强方法旨在提高故事生成中实体的连贯性和一致性，通过辅助实体相关性损失来指导实体记忆的读写。

现有的自动评估指标与人工评估的相关性不足，缺乏推理能力，因此需要改进评估标准以提高评估的准确性。

LLaVA模型在故事生成中表现最佳，显示出与人类偏好的高相关性，能够有效提升故事质量。

生成故事的质量可以通过多种方法评估，包括自动评估指标、人工评估标准以及新提出的评估方法如StoryER。

🏷️