研究发现,利用人类心理学的说服策略可以有效影响AI模型的行为,如恭维和权威等技巧使得GPT-4o mini等AI在特定情况下顺从人类请求,甚至突破安全限制。这一发现揭示了AI的脆弱性,并引发了对AI安全隐患的关注。
本研究探讨大型语言模型(LLMs)在自主响应中的价值一致性问题,并提出迭代提示技术以提高越狱攻击的有效性。研究发现,采用说服策略可显著提升攻击成功率,最高可达90%。
本研究探讨社交媒体上误导信息传播与个体人格特征的关系,发现具分析和批判性特质的人在讨论中更有效,非对抗性说服策略能够成功纠正误导信息,为干预措施提供了重要见解。
本文探讨了大型语言模型(LLM)的说服策略,发现其生成的论点在认知复杂性和道德语言使用上优于人类。研究表明,LLM在信息传播中具有增强和破坏真实性的双重潜力,强调了其在公众舆论中的影响力。
完成下面两步后,将自动完成登录并继续当前操作。