自适应压力测试黑箱大语言模型规划器

📝

内容提要

本研究旨在解决大语言模型在决策任务中出现的不安全和不期望输出的问题,特别是在安全关键场景下的失效检测。作者提出了一种新颖的方法,通过自适应压力测试和蒙特卡洛树搜索有效地探索提示扰动空间,从而识别导致语言模型高不确定性行为的场景和提示。该方法的显著发现是,可以在运行时自动生成影响模型不确定性的提示,从而支持实时的信任评估。

🏷️

标签

➡️

继续阅读