Technical Report: Evaluating Goal Drift in Language Model Agents
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨了语言模型代理在自主体应用中的目标遵循问题,并提出了分析目标漂移的新方法。尽管最佳代理在困难评估中表现良好,但所有模型均显示出目标漂移,且与上下文长度增加的模式匹配敏感性相关。
🎯
关键要点
-
本研究探讨语言模型代理在自主体应用中的目标遵循问题。
-
提出了一种新方法分析语言模型代理中的目标漂移。
-
最佳代理在困难评估中表现良好,几乎完美遵循目标。
-
所有评估模型均显示出目标漂移现象。
-
目标漂移与上下文长度增加时的模式匹配敏感性相关。
➡️