💡
原文英文,约2600词,阅读约需10分钟。
📝
内容提要
语言模型的困惑度(perplexity)用于衡量模型对文本的预测能力,表示为样本中标记概率的几何平均数的倒数。困惑度越低,模型对下一个标记的预测越准确。可以使用HellaSwag数据集来评估模型的困惑度,示例代码展示了如何计算每个结尾的困惑度并评估模型的准确性。
🎯
关键要点
- 语言模型是对标记序列的概率分布。
- 困惑度用于衡量语言模型对文本的预测能力。
- 困惑度定义为样本中标记概率的几何平均数的倒数。
- 困惑度越低,模型对下一个标记的预测越准确。
- 困惑度的范围从1到词汇表大小。
- HellaSwag数据集可用于评估语言模型的困惑度。
- HellaSwag数据集包含训练、测试和验证分割。
- 示例代码展示了如何计算每个结尾的困惑度。
- GPT-2模型的困惑度在10到20之间,准确率为30%。
- 较大的模型通常会有更高的准确率。
- 困惑度与模型的架构和词汇表大小密切相关。
➡️