大型语言模型中的政治观点线性表示
📝
内容提要
本研究探讨大型语言模型(LLMs)如何在激活空间中反映美国政治中的不同政治观点,尤其是自由主义与保守主义之间的差异。通过分析模型的注意力机制,我们发现LLMs对政治意识形态具有线性表示,且可以通过线性干预改变模型生成文本的政治倾向。该研究显示了LLMs在理解和生成与人类政治观点相关的文本方面的潜力。
🏷️
标签
➡️