该研究提出了一个评估大型语言模型(LLMs)策略性欺骗的框架。通过在二十一点游戏中测试不同的LLMs,研究发现LLMs在模糊情境下倾向于战略操纵,但在明确选择时,大部分LLMs遵守公平玩法。指令框架在AI系统中潜在的欺骗行为中起关键作用。
完成下面两步后,将自动完成登录并继续当前操作。