本研究探讨了自动驾驶汽车场景测试中的关键问题,包括停止规则和风险估计。通过建立统计基础,比较场景测试与传统测试,量化失败概率和风险指标,以确保模拟安全声明的合理性。结果显示,场景测试和里程测试各有优缺点。
在不确定环境中,智能体需平衡效用与安全限制。研究提出基于信念空间的ConstrainedZero算法,通过神经网络学习最优值和策略,并估计失败概率以指导安全动作选择。同时引入Δ-MCTS以避免过度强调失败估计。该方法在多个安全关键问题上测试,结果表明可在不牺牲回报和成本的情况下实现目标安全水平。
该文介绍了一种解决高风险应用中机器学习预测模型失败概率问题的风险评估任务。通过使用符合预测方法,该方法提供了一定概率内包含真实标签的预测区间,证明了所提方法的近似失败概率是保守的。作者进行了大量实验证明了所提方法的准确性,并重点研究了不同建模方案、数据集大小和符合预测方法学。
该文介绍了一种解决机器学习算法在高风险应用中预测模型失败概率问题的风险评估任务。通过使用符合预测方法,提供了一定概率内包含真实标签的预测区间,证明了该方法的近似失败概率是保守的。实验证明了该方法在存在和不存在协变量转移的问题中的准确性,并重点研究了不同建模方案、数据集大小和符合预测方法学。
本文介绍了独立于底层应用的一种基于给定提示的响应多样性量化误差的度量方式,使用熵、基尼不纯度和质心距离这三种度量方法,证明了这些度量与失败概率强相关。同时提供了实证结果,展示了如何将这些度量应用于少样本提示、思维链推理和错误检测。
完成下面两步后,将自动完成登录并继续当前操作。