RiskAwareBench:评估基于大语言模型的具身代理的物理风险意识
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
大型语言模型与机器人技术整合提升了实体机器人理解和执行复杂自然语言指令的能力。然而,部署基于大型语言模型的实体系统可能存在物理风险。为此,提出了RiskAwareBench框架,评估实体机器人对物理风险的意识。实验结果显示,大多数大型语言模型在物理风险意识方面表现不足,强调了改善实体机器人风险意识的紧迫性和重要性。
🎯
关键要点
- 大型语言模型与机器人技术的整合提升了实体机器人理解和执行复杂自然语言指令的能力。
- 无节制地部署基于大型语言模型的实体系统可能存在潜在的物理风险。
- 现有的大型语言模型安全基准忽视了基于大型语言模型的实体机器人的风险意识。
- 提出了RiskAwareBench框架,旨在评估实体机器人对物理风险的意识。
- RiskAwareBench由安全提示生成、危险场景生成、计划生成和评估四个模块组成。
- 利用该框架编译了包括安全提示、观察和指令的PhysicalRisk数据集。
- 实验结果显示,大多数大型语言模型在物理风险意识方面表现不足。
- 基线风险缓解策略提供有限的增强,强调了改善实体机器人风险意识的紧迫性和重要性。
➡️