说服我,如果你能:评估大语言模型说服效果和易受说服性的框架
📝
内容提要
本研究探讨大语言模型(LLMs)在说服能力方面的表现及其潜在风险,尤其关注模型在伦理对齐方面的脆弱性。我们提出了“说服我,如果你能”(PMIYC)框架,通过多智能体交互评估说服效果和易受说服性,发现Llama-3.3-70B和GPT-4o在说服效果上相似,但GPT-4o在应对虚假信息时显示了更强的抵抗力。这一研究为理解LLMs的说服动态和安全AI系统的发展提供了实证支持。
🏷️
标签
➡️