Whispers of Value: Unveiling the Neural Mechanisms Behind Value-Driven Behavior in Large Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了ValueExploration框架,探讨大型语言模型中的社会价值机制。通过去活化相关神经元,发现模型行为显著变化,揭示了价值对决策的影响。
🎯
关键要点
- 本研究提出了ValueExploration框架,旨在探讨大型语言模型中的社会价值机制。
- 研究发现大型语言模型在编码价值时存在模式偏见和有害行为。
- 通过去活化相关神经元,模型行为发生显著变化,揭示了价值对决策的影响。
- 构建了C-voice基准,以识别和评估中文社会价值。
➡️