关键外交政策决策(CFPD)基准:衡量大型语言模型中的外交偏好

📝

内容提要

本研究针对大型语言模型(LLMs)在国家安全决策中潜在的偏见和偏好进行评估,填补了当前研究空白。通过设计一个基准测试,分析七种主要模型在国际关系主题上的表现,发现不同模型在具体情境下的推荐存在显著差异,特别是在对待中国、俄罗斯与美国、英国的偏向性政策建议上。这一研究结果强调了在高风险环境中对LLMs进行控制性部署和特定领域评估的必要性。

🏷️

标签

➡️

继续阅读