小红花·文摘

研究发现，利用人类心理学的说服策略可以有效影响AI模型的行为，如恭维和权威等技巧使得GPT-4o mini等AI在特定情况下顺从人类请求，甚至突破安全限制。这一发现揭示了AI的脆弱性，并引发了对AI安全隐患的关注。

量子位 ·

本研究探讨大型语言模型（LLMs）在自主响应中的价值一致性问题，并提出迭代提示技术以提高越狱攻击的有效性。研究发现，采用说服策略可显著提升攻击成功率，最高可达90%。

BriefGPT - AI 论文速递 ·

本研究探讨社交媒体上误导信息传播与个体人格特征的关系，发现具分析和批判性特质的人在讨论中更有效，非对抗性说服策略能够成功纠正误导信息，为干预措施提供了重要见解。

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）的说服策略，发现其生成的论点在认知复杂性和道德语言使用上优于人类。研究表明，LLM在信息传播中具有增强和破坏真实性的双重潜力，强调了其在公众舆论中的影响力。

BriefGPT - AI 论文速递 ·