大语言模型中情感的线性表征
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究发现大型语言模型中情感以线性方式表示,涉及注意力和神经元机制,不仅在情绪化词汇上表示,也在中性位置总结。去除总结性情感方向会影响零样本分类任务的准确度。
🎯
关键要点
-
研究发现情感在大型语言模型中以线性方式表示。
-
通过因果干预证明情感表示在特定方向上具有因果关系。
-
揭示情感表示涉及的注意力和神经元机制。
-
发现名为 'summarization motif' 的现象,情感在中性位置也进行总结。
-
在 Stanford Sentiment Treebank 的零样本分类任务中,去除情感方向导致约36%的分类准确度损失。
➡️