小红花·文摘

推理模型中的轨迹长度是简单的不确定性信号

Apple Machine Learning Research ·

本研究提出了一种新颖的模型内部置信度估计器（MICE），用于校准工具使用代理的置信度。MICE通过解码语言模型的中间层来评估置信度，显著提高了工具调用的效率和置信度，具备高样本效率和零次泛化能力，适用于不同风险场景。

MICE: 用于校准工具代理的模型内部置信度估计

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLM）的自信度问题，提出了一种新的置信度估计框架，通过评估多个候选答案的可信度来减轻过度自信。实验结果表明，该框架有效提高了模型的准确性和校准能力，增强了用户对模型输出的信任，尤其在高风险应用中具有重要意义。

通过从过去经验中学习，增强大型语言模型中的自信表达

BriefGPT - AI 论文速递 ·

本文介绍了一种基于符合性预测的可靠和可信预测器的使用，以便于在实际场景中部署深度学习模型，并提供能够准确反映其不确定性的置信度估计。作者结合新颖的数据集和现代化的目标检测器反复测试了几种符合性方法，并基于符合风险控制提出了新的方法，以此为目的，展示出符合性预测框架在评估模型性能和为实现正式保证的不确定性边界提供实际指导的潜力。

交叉验证合规风险控制

BriefGPT - AI 论文速递 ·

该文介绍了GACE方法，可提高基于LiDAR的三维物体检测器的置信度估计和检测性能，尤其在易受伤害的道路使用者类别中表现优异。

GACE：基于几何感知的 LiDAR 数据黑盒 3D 物体检测器的置信度增强

BriefGPT - AI 论文速递 ·