本研究探讨大型语言模型(LLMs)在自主响应中的价值一致性问题,并提出迭代提示技术以提高越狱攻击的有效性。研究发现,采用说服策略可显著提升攻击成功率,最高可达90%。
本研究提出了一种渐进警觉与间隔沟通(GVIC)框架,以提高多智能体辩论中的价值一致性。GVIC通过智能体互动优化辩论效率,降低沟通成本,实验表明其在减少有害性和防止欺诈方面显著优于传统方法,展现出良好的适应性。
本文探讨了在多个个体中实现人工智能价值一致性的挑战,提出了一种基于社会选择理论的政策聚合方法,通过序数偏好与状态-动作占用多面体体积的关联来解决问题。研究表明,批准投票等方法可有效用于政策聚合。
完成下面两步后,将自动完成登录并继续当前操作。