同和故事匯 ·

【大模型】评测指标解析（准确率/精确率/召回率/F1分数/rouge/Perplexity/BLEU）

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

准确率是评估分类模型性能的重要指标，计算公式为Accuracy=(TP+TN)/(TP+TN+FP+FN)。精确率和召回率分别衡量模型对正类的预测准确性和覆盖程度。F1分数综合评估精确率和召回率，适用于类别不平衡的数据集。ROUGE和BLEU用于评估文本摘要和机器翻译的质量。

🎯

🔎

虽然准确率是评估模型性能的重要指标，但在类别不平衡的情况下，它可能会产生误导。例如，在一个样本中，绝大多数为负类，模型即使只预测负类也能获得高准确率。因此，结合精确率和召回率等其他指标更能全面反映模型的真实表现。

F1分数在处理类别不平衡问题时尤为重要，尤其在医疗诊断和欺诈检测等领域。因为这些领域对假阳性和假阴性的影响有不同的要求，F1分数能够有效平衡精确率和召回率，帮助决策者做出更合理的判断。

ROUGE和BLEU都是评估文本生成质量的重要指标，但应用场景不同。ROUGE主要用于文本摘要，而BLEU则用于机器翻译。理解这两者的差异有助于选择合适的评估方法，从而更准确地衡量生成文本的质量。

❓

准确率是评估分类模型性能的重要指标，计算公式为Accuracy=(TP+TN)/(TP+TN+FP+FN)。

精确率衡量模型预测为正类时的准确性，而召回率衡量实际为正类的样本中被正确预测的比例。

F1分数是综合评估精确率和召回率的指标，计算公式为F1=2×(Precision×Recall)/(Precision+Recall)。

ROUGE指标主要用于评估自动文本摘要和机器翻译的质量，通过比较生成摘要与参考摘要的相似度进行评估。

困惑度衡量语言模型在预测文本序列时的“困惑”程度，反映模型对下一个词的预测能力，值越低表示模型预测越有信心。

BLEU分数通过比较机器翻译输出与参考翻译之间的n-gram重叠来评分，计算公式为BLEU=BP⋅exp(∑n=1Nwnlog⁡pn)。

🏷️