本文探讨了推理模型中推理轨迹长度作为置信度估计器的作用。研究表明,推理后训练改变了轨迹长度与准确性之间的关系,且在多种模型和数据集上,轨迹长度与其他置信度估计器相辅相成。此外,高熵或“分叉”标记在这一机制中起着关键作用,证明推理后训练增强了不确定性量化能力。
本研究提出了一种新颖的模型内部置信度估计器(MICE),用于校准工具使用代理的置信度。MICE通过解码语言模型的中间层来评估置信度,显著提高了工具调用的效率和置信度,具备高样本效率和零次泛化能力,适用于不同风险场景。
本研究探讨了大型语言模型(LLM)的自信度问题,提出了一种新的置信度估计框架,通过评估多个候选答案的可信度来减轻过度自信。实验结果表明,该框架有效提高了模型的准确性和校准能力,增强了用户对模型输出的信任,尤其在高风险应用中具有重要意义。
本文介绍了一种基于符合性预测的可靠和可信预测器的使用,以便于在实际场景中部署深度学习模型,并提供能够准确反映其不确定性的置信度估计。作者结合新颖的数据集和现代化的目标检测器反复测试了几种符合性方法,并基于符合风险控制提出了新的方法,以此为目的,展示出符合性预测框架在评估模型性能和为实现正式保证的不确定性边界提供实际指导的潜力。
该文介绍了GACE方法,可提高基于LiDAR的三维物体检测器的置信度估计和检测性能,尤其在易受伤害的道路使用者类别中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。