本文探讨了大型语言模型Llama2在迭代囚徒困境中的合作行为。研究发现,Llama2在面对不同敌意水平的对手时,倾向于不主动背叛,并在对手背叛率低于30%时采取宽容合作策略。与人类参与者相比,Llama2表现出更强的合作倾向。这为LLMs的审核和对齐实践提供了理论基础。
完成下面两步后,将自动完成登录并继续当前操作。