价值画像:通过人类对齐基准理解大语言模型的价值
📝
内容提要
本研究旨在解决现有大语言模型(LLMs)评估缺乏真实性和一致性的问题。我们提出“价值画像”基准,利用真实用户与LLMs的互动评估模型的价值取向,发现这些模型更重视仁爱、安全和自我导向等价值,而对传统、权力和成就的重视较低。这一研究为理解和改善LLMs的价值观提供了新的视角。
🏷️
标签
➡️