通过代表性启发式检验大型语言模型的对齐:政治刻板印象的案例
📝
内容提要
本研究针对大型语言模型(LLMs)在政治问题上的人类意图与价值对齐的难题进行探讨,填补了LLMs偏离经验立场的原因及条件研究的空白。采用认知科学中的代表性启发式理论,实验结果表明,LLMs在模仿特定政党的立场时,常常比人类受访者更夸大这些立场,揭示了LLMs对政治刻板印象的脆弱性,并提出了有效的基于提示的干预策略,以减少代表性对LLMs响应的影响。
➡️