小红花·文摘 - 小红花技术领袖俱乐部

Diff风险评分：基于AI的风险意识软件开发

Diff风险评分：基于AI的风险意识软件开发

Engineering at Meta ·

本研究针对大型自主AI模型在安全和可靠性方面存在的工程保障缺口，提出了一种风险意识的安全设计方法。该方法整合标准化的威胁指标、对抗性增强技术和实时异常检测，形成一个统一的开发生命周期管道，从而有效降低系统脆弱性并满足合规要求，推动跨行业合作以稳固AI的安全保障生态。

工程风险意识、安全设计框架以保证大型自主AI模型的可靠性

BriefGPT - AI 论文速递 ·

本研究探讨了用户在在线自我披露中面临的隐私风险，并提出结合自然语言处理的模型以帮助用户识别这些风险。尽管模型存在不足，用户对其在提高风险意识和促进自我反思方面的反馈积极。AI工具在支持隐私决策时需考虑发布上下文和用户的真实威胁模型。

Measuring, Modeling, and Assisting People in Addressing Privacy Risks in Online Self-Disclosure Using Artificial Intelligence

BriefGPT - AI 论文速递 ·

本研究扩展了传统的多臂老虎机问题，提出了风险意识目标，并采用汤普森采样方法处理未知状态转移概率，从而显著降低风险暴露。研究结果表明，该方法在多集和多臂情况下的回报损失具有次线性和二次可扩展性。

Planning and Learning in Risk-Aware Restless Multi-Armed Bandit Problem

BriefGPT - AI 论文速递 ·

本文介绍了一种基于强化学习的策略，以提高太空垃圾捕捉和处理的效率。研究表明，该方法在多种场景下优于传统优化方法，能够有效应对环境不确定性，并显著缩短任务时间，为太空碎片清除提供了新思路。

基于人工智能的风险意识调度用于主动去除太空 debris 任务

BriefGPT - AI 论文速递 ·

本研究评估了8个语言模型在风险评估中的表现，发现GPT-4得分为72.29%，低于人类的89.38%。研究强调安全风险反馈的重要性，并提出HAZARD评估标准，以评估智能代理在动态环境中的决策能力。同时，探讨了大型语言模型的安全性和可靠性，提出了应对潜在风险的防护策略，强调了持续研究的必要性。

RiskAwareBench：评估基于大语言模型的具身代理的物理风险意识

BriefGPT - AI 论文速递 ·

家人被诈骗了

家人被诈骗了

forecho 的独立博客 ·

这篇研究论文提出了一种具有不确定性和风险意识的综合任务与动作规划（TAMPURA）策略，能够高效解决具有初始状态和动作结果不确定性的长时程规划问题，通过在抽象任务层和连续控制器层面上进行不确定性推理，该方法在面临不确定性的机器人问题上表现出色。

带有不确定性和风险意识的部分可观测任务与动作规划

BriefGPT - AI 论文速递 ·

基于多指标的A/B测试中的风险意识产品决策

基于多指标的A/B测试中的风险意识产品决策

Spotify Engineering ·

提出了一种适用于基于数字孪生的无线网络的离线多智能体保守分位回归 (MA-CQR) 方案，通过集成分布式强化学习和保守 Q 学习来解决环境的内在的随机性不确定性和数据有限性导致的认识不确定性。在无人机网络中应用该方案，展示了其对轨迹规划问题的优势。

数字孪生的保守和风险意识离线多智能体强化学习

BriefGPT - AI 论文速递 ·

本研究评估了8个语言模型在27个关键风险场景上的表现，发现GPT-4模型在风险评估得分方面为72.29%，显示了提高语言模型对风险意识的潜力。同时，利用风险描述作为环境反馈显著提高了模型的性能。通过设计有效的安全分析技术和深入的案例研究，有助于判断安全风险并促进未来研究。

R-Judge：LLM 代理程序的安全风险意识基准测试

BriefGPT - AI 论文速递 ·

这篇文章介绍了基于模型的强化学习中的不确定性问题，并提出了一个新的不确定性Bellman方程。通过引入近似方法，提出了一种通用的策略优化算法QU-SAC。实验结果表明，相较于其他不确定性估计方法，该算法性能得到了提升。

基于模型的风险意识策略优化的认知变异性

BriefGPT - AI 论文速递 ·

该文介绍了一种基于模型的强化学习中的风险管理方法，使用概率安全约束、乐观和悲观以及随机神经网络的平衡来处理不确定性。实验证明，该方法在数据驱动的 MPC 方法中表现良好。

谨防不确定性：风险意识和积极探索模型的基于强化学习

BriefGPT - AI 论文速递 ·