小红花·文摘

本文研究大型语言模型（LLMs）在协商游戏中的自主改进能力，探讨其推理能力和对误导性指令的抵抗力。通过多轮游戏和反馈，模型的谈判策略得以迭代改进。同时，提出了一种评估模型真相检测能力的新方法，发现某些模型在识别欺骗语言方面表现优异，为人类真相检测提供支持。