基于大型语言模型的具身智能体任务规划安全性评估与对齐框架
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了Safe-BeAl框架,以应对大型语言模型在具身智能体任务规划中的安全性挑战。研究表明,LLM智能体可能出现不安全行为,而Safe-Align方法能够有效提升安全性,安全标准提高了8.55%至15.22%,同时确保任务完成。
🎯
关键要点
- 本研究提出了Safe-BeAl框架,旨在应对大型语言模型在具身智能体任务规划中的安全性挑战。
- 研究发现,LLM智能体可能出现不安全行为,即使在没有对抗性输入的情况下。
- Safe-Align方法能够有效提升安全性,安全标准提高了8.55%至15.22%。
- Safe-BeAl框架包含用于测量和对齐行为的方法,如SafePlan-Bench和Safe-Align。
- 研究确保了任务的完成,同时提升了安全性。
🏷️
标签
➡️