小红花·文摘

本研究探讨了自动驾驶汽车场景测试中的关键问题，包括停止规则和风险估计。通过建立统计基础，比较场景测试与传统测试，量化失败概率和风险指标，以确保模拟安全声明的合理性。结果显示，场景测试和里程测试各有优缺点。

BriefGPT - AI 论文速递 ·

该文介绍了一种解决高风险应用中机器学习预测模型失败概率问题的风险评估任务。通过使用符合预测方法，该方法提供了一定概率内包含真实标签的预测区间，证明了所提方法的近似失败概率是保守的。作者进行了大量实验证明了所提方法的准确性，并重点研究了不同建模方案、数据集大小和符合预测方法学。

BriefGPT - AI 论文速递 ·

该文介绍了一种解决机器学习算法在高风险应用中预测模型失败概率问题的风险评估任务。通过使用符合预测方法，提供了一定概率内包含真实标签的预测区间，证明了该方法的近似失败概率是保守的。实验证明了该方法在存在和不存在协变量转移的问题中的准确性，并重点研究了不同建模方案、数据集大小和符合预测方法学。

BriefGPT - AI 论文速递 ·

本文介绍了独立于底层应用的一种基于给定提示的响应多样性量化误差的度量方式，使用熵、基尼不纯度和质心距离这三种度量方法，证明了这些度量与失败概率强相关。同时提供了实证结果，展示了如何将这些度量应用于少样本提示、思维链推理和错误检测。

BriefGPT - AI 论文速递 ·