评估语言模型的困惑度

评估语言模型的困惑度

💡 原文英文,约2600词,阅读约需10分钟。
📝

内容提要

语言模型的困惑度(perplexity)用于衡量模型对文本的预测能力,表示为样本中标记概率的几何平均数的倒数。困惑度越低,模型对下一个标记的预测越准确。可以使用HellaSwag数据集来评估模型的困惑度,示例代码展示了如何计算每个结尾的困惑度并评估模型的准确性。

🎯

关键要点

  • 语言模型是对标记序列的概率分布。
  • 困惑度用于衡量语言模型对文本的预测能力。
  • 困惑度定义为样本中标记概率的几何平均数的倒数。
  • 困惑度越低,模型对下一个标记的预测越准确。
  • 困惑度的范围从1到词汇表大小。
  • HellaSwag数据集可用于评估语言模型的困惑度。
  • HellaSwag数据集包含训练、测试和验证分割。
  • 示例代码展示了如何计算每个结尾的困惑度。
  • GPT-2模型的困惑度在10到20之间,准确率为30%。
  • 较大的模型通常会有更高的准确率。
  • 困惑度与模型的架构和词汇表大小密切相关。
➡️

继续阅读