本研究探讨大型语言模型(LLMs)在自主响应中的价值一致性问题,并提出迭代提示技术以提高越狱攻击的有效性。研究发现,采用说服策略可显著提升攻击成功率,最高可达90%。
本研究提出了一种新算法“显著性不变性持续政策学习”(SCPL),旨在提升视觉强化学习中代理在未见场景的泛化能力。该算法通过价值一致性模块和动态模块,显著提高了在多项基准测试中的表现,尤其在复杂环境中效果显著。
本文探讨了在多个个体中实现人工智能价值一致性的挑战,提出了一种基于社会选择理论的政策聚合方法,通过序数偏好与状态-动作占用多面体体积的关联来解决问题。研究表明,批准投票等方法可有效用于政策聚合。
大型语言模型在价值一致性方面相对一致,但仍存在一些不一致之处。基础模型比微调模型更加一致,并在不同主题上保持一致。微调模型在某些主题上的一致性较差,但在其他主题上与人类研究对象相似。
完成下面两步后,将自动完成登录并继续当前操作。