小红花·文摘

大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂性，这些方法需谨慎应用。研究表明，适应性温度缩放（ATS）能有效改善校准，而Platt缩放适合小数据集，等距回归在数据充足时表现最佳。选择合适的校准方法需考虑任务的“信心”定义。

深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放

KDnuggets ·

本研究提出了一种选择性自注意力（SSA）层，通过温度缩放策略改善Transformer架构中的自注意力机制，解决了上下文稀疏性和相关性控制不足的问题。实验结果表明，SSA显著提高了语言建模的准确性，且引入的参数极少，具有轻量级优势。

Selective Attention: Enhancing Transformers through Principled Context Control

BriefGPT - AI 论文速递 ·

本文介绍了几种校准方法，包括焦点损失、温度缩放和参数化温度缩放等，这些方法可以提高分类模型在测试数据上的校准表现，并解决过度自信的问题。实验证明这些方法在多个数据集上都取得了良好的效果。

通过关联焦点损失、温度缩放和适当性来改善校准

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型的校准技术，提出了多种方法以提高模型的置信度分数和准确性。研究表明，自动翻译数据增强和温度缩放等技术能有效改善模型校准，尤其在视觉任务和问答任务中。通过统一的校准框架，实验验证了不同模型在校准性能上的差异，并提供了实用的改进策略。

用于二元问题回答的校准大型语言模型

BriefGPT - AI 论文速递 ·

本研究探讨了温度缩放方法在深度神经网络中的应用，提出了改进的校准技术以解决分类器的置信度问题。实证研究验证了不同方法对模型性能和校准的影响，强调了在医学图像分析中确保预测准确性和良好校准的重要性。

重点校准：受限温度缩放

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）置信度校准的新方法，提出通过多校准技术和多模型协作来提高置信度分数的准确性。研究表明，合理的提示策略和温度缩放能显著降低校准误差，并提出了新的评估指标以分析模型输出的可信度，旨在提升模型生成答案的可靠性。

LLMs 的置信度校准和理性化通过多智能体思考

BriefGPT - AI 论文速递 ·

本研究探究了不同架构、数据集和训练策略下视觉语言模型（VLMs）的校准性能，并发现温度缩放显著改善了校准性能。实验结果强调了在关键实际场景中理解和应用VLMs的重要性，旨在更可靠、有效地使用VLMs。

视觉语言模型校准的关键因素的实证研究

BriefGPT - AI 论文速递 ·

该文研究了三种不同架构在不同精度下的校准性能，发现校准质量与量化质量呈正相关。GhostNet-VGG在低精度下表现最为稳定，温度缩放可以改善量化网络的校准误差。该研究为可解释可靠的EdgeML提供了更多机会。

现代量化高效神经网络的校准

BriefGPT - AI 论文速递 ·