小红花·文摘

本研究探讨大型语言模型（LLMs）在自主响应中的价值一致性问题，并提出迭代提示技术以提高越狱攻击的有效性。研究发现，采用说服策略可显著提升攻击成功率，最高可达90%。

BriefGPT - AI 论文速递 ·

本研究提出了一种渐进警觉与间隔沟通（GVIC）框架，以提高多智能体辩论中的价值一致性。GVIC通过智能体互动优化辩论效率，降低沟通成本，实验表明其在减少有害性和防止欺诈方面显著优于传统方法，展现出良好的适应性。

BriefGPT - AI 论文速递 ·

本文探讨了在多个个体中实现人工智能价值一致性的挑战，提出了一种基于社会选择理论的政策聚合方法，通过序数偏好与状态-动作占用多面体体积的关联来解决问题。研究表明，批准投票等方法可有效用于政策聚合。

BriefGPT - AI 论文速递 ·