RiskAwareBench:评估基于大语言模型的具身代理的物理风险意识
原文中文,约500字,阅读约需2分钟。发表于: 。本研究针对基于大语言模型的具身代理在真实环境中可能面临的物理风险缺乏意识的问题,提出了RiskAwareBench框架,用于自动评估具身代理的物理风险意识。该框架通过安全提示生成、风险场景生成、计划生成和评估四个模块,构建了PhysicalRisk数据集,并通过实验表明当前大语言模型的物理风险意识普遍不足,提示未来需加强这一领域的研究。
大型语言模型与机器人技术整合提升了实体机器人理解和执行复杂自然语言指令的能力。然而,部署基于大型语言模型的实体系统可能存在物理风险。为此,提出了RiskAwareBench框架,评估实体机器人对物理风险的意识。实验结果显示,大多数大型语言模型在物理风险意识方面表现不足,强调了改善实体机器人风险意识的紧迫性和重要性。