小红花·文摘

本文探讨了大型语言模型Llama2在迭代囚徒困境中的合作行为。研究发现，Llama2在面对不同敌意水平的对手时，倾向于不主动背叛，并在对手背叛率低于30%时采取宽容合作策略。与人类参与者相比，Llama2表现出更强的合作倾向。这为LLMs的审核和对齐实践提供了理论基础。