EMTeC:机器生成文本的眼动语料库

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

EMTeC是一个自然主义的语料库,包含了六种不同文本类型的文本,由三个大型语言模型在不同解码策略下生成。该语料库用于研究机器生成文本的阅读行为和解码策略对人类阅读时间的影响,以及Surprisal和Entropy对阅读时间的预测能力。

🎯

关键要点

  • EMTeC是一个自然主义的语料库,包含六种不同文本类型的文本。
  • 文本由三个大型语言模型在不同解码策略下生成。
  • 该语料库用于研究机器生成文本的阅读行为。
  • 研究内容包括解码策略对人类阅读时间的影响。
  • 探讨Surprisal和Entropy对阅读时间的预测能力。
  • EMTeC包含英语母语者在阅读机器生成文本期间的眼动数据。
  • 该语料库支持新的预处理、数据过滤和漂移校正算法的开发。
  • 研究语言模型的认知可解释性和增强性。
➡️

继续阅读