小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究探讨了自动驾驶汽车场景测试中的关键问题,包括停止规则和风险估计。通过建立统计基础,比较场景测试与传统测试,量化失败概率和风险指标,以确保模拟安全声明的合理性。结果显示,场景测试和里程测试各有优缺点。

自动驾驶汽车场景测试需建立统计基础

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-04T00:00:00Z

在不确定环境中,智能体需平衡效用与安全限制。研究提出基于信念空间的ConstrainedZero算法,通过神经网络学习最优值和策略,并估计失败概率以指导安全动作选择。同时引入Δ-MCTS以避免过度强调失败估计。该方法在多个安全关键问题上测试,结果表明可在不牺牲回报和成本的情况下实现目标安全水平。

任何时候的概率约束可证明收敛的在线信念空间规划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z

该文介绍了一种解决高风险应用中机器学习预测模型失败概率问题的风险评估任务。通过使用符合预测方法,该方法提供了一定概率内包含真实标签的预测区间,证明了所提方法的近似失败概率是保守的。作者进行了大量实验证明了所提方法的准确性,并重点研究了不同建模方案、数据集大小和符合预测方法学。

机器学习软件故障预测的方差:我们真的在改进故障预测吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-26T00:00:00Z

该文介绍了一种解决机器学习算法在高风险应用中预测模型失败概率问题的风险评估任务。通过使用符合预测方法,提供了一定概率内包含真实标签的预测区间,证明了该方法的近似失败概率是保守的。实验证明了该方法在存在和不存在协变量转移的问题中的准确性,并重点研究了不同建模方案、数据集大小和符合预测方法学。

基于回归的机器学习算法的非分布风险评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z

本文介绍了独立于底层应用的一种基于给定提示的响应多样性量化误差的度量方式,使用熵、基尼不纯度和质心距离这三种度量方法,证明了这些度量与失败概率强相关。同时提供了实证结果,展示了如何将这些度量应用于少样本提示、思维链推理和错误检测。

多样性衡量:语言模型查询失败的领域无关代理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-22T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码