小红花·文摘

大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂性，这些方法需谨慎应用。研究表明，适应性温度缩放（ATS）能有效改善校准，而Platt缩放适合小数据集，等距回归在数据充足时表现最佳。选择合适的校准方法需考虑任务的“信心”定义。