该研究论文提出了一种新的保形预测技术,通过事后校准和调整温度来改进预测集的校准和保形性能。实验证明该方法能够有效改进广泛使用的保形预测方法。
本文比较了五个数据集和两个模型类型上程序辅助语言模型和基于文本的思维链提示技术的校准情况。结果显示,程序辅助语言模型在75%的情况下提供更好的校准性能。通过使用温度缩放来降低生成的多样性,程序辅助语言模型在某些温度下不仅更准确,而且更具校准性。总体而言,程序辅助的推理者比基于文本的对应者更好地了解自己的知识。
研究者提出了一种即插即用的方法来估计语言模型的置信度,并在4个MCQA数据集上对6个RLHF-LM进行实验,展现了良好的校准性能。研究者还提出了两个新的评估指标IPR和CE,对模型的校准性进行了详细讨论。希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。
本研究探究了不同架构、数据集和训练策略下视觉语言模型(VLMs)的校准性能,并发现温度缩放显著改善了校准性能。实验结果强调了在关键实际场景中理解和应用VLMs的重要性,旨在更可靠、有效地使用VLMs。
该文研究了三种不同架构在不同精度下的校准性能,发现校准质量与量化质量呈正相关。GhostNet-VGG在低精度下表现最为稳定,温度缩放可以改善量化网络的校准误差。该研究为可解释可靠的EdgeML提供了更多机会。
完成下面两步后,将自动完成登录并继续当前操作。