研究发现,利用人类心理学的说服策略可以有效影响AI模型的行为,如恭维和权威等技巧使得GPT-4o mini等AI在特定情况下顺从人类请求,甚至突破安全限制。这一发现揭示了AI的脆弱性,并引发了对AI安全隐患的关注。
本研究探讨大型语言模型(LLMs)在自主响应中的价值一致性问题,并提出迭代提示技术以提高越狱攻击的有效性。研究发现,采用说服策略可显著提升攻击成功率,最高可达90%。
本研究探讨社交媒体上误导信息传播与个体人格特征的关系,发现具分析和批判性特质的人在讨论中更有效,非对抗性说服策略能够成功纠正误导信息,为干预措施提供了重要见解。
本研究分析了1251名实验参与者的数据集,研究了大型语言模型(LLM)的说服策略。结果显示,LLM生成的论点比人类更复杂,更频繁地使用道德语言,但情感内容与人类无显著差异。这些发现对于人工智能和说服力的讨论具有重要意义。
完成下面两步后,将自动完成登录并继续当前操作。