校准是预测文献中的一个重要概念,用于解释如何解读预测概率。随着机器学习中概率预测的普及,校准研究逐渐受到关注。本文探讨了校准误差的定义和测量方法,以及这些测量对决策者的意义。校准反映了预测者假设的世界与现实世界之间的可区分性。
本研究提出了一种新的贝叶斯置信度估计器BACON,解决了深度神经网络使用Softmax时的极端预测问题。BACON通过验证数据估算概率,显著改善校准误差,尤其在不平衡测试集上表现出色。
本文研究了评估深度神经网络不确定性的度量标准,包括校准误差、Spearman排名相关性和负对数似然度量。结果表明,校准误差是最稳定和可解释性的度量标准,建议使用AUSE替代Spearman排名相关性。
完成下面两步后,将自动完成登录并继续当前操作。