教会模型平衡抵制和接受劝说

📝

内容提要

本研究解决了大型语言模型在面对敌对交谈者时易受劝说的安全隐患,提出了“劝说平衡训练”(PBT)的方法,旨在让模型平衡对负向和正向劝说的接受能力。研究表明,PBT显著提高了模型抵抗错误信息的能力,并改善了在多代理辩论中的表现,使得团队合作更加稳定。

➡️

继续阅读