大型语言模型黑匣子揭秘:整体可解释性的两个视角
📝
内容提要
通过一种全面解释性的框架,我们提出打开大语言模型的黑匣子,既关注机制可解释性、组件功能和训练动态,又通过隐藏表示进行行为分析,以实现与人类价值相一致的伦理、诚实和可靠推理。
🏷️
标签
➡️
通过一种全面解释性的框架,我们提出打开大语言模型的黑匣子,既关注机制可解释性、组件功能和训练动态,又通过隐藏表示进行行为分析,以实现与人类价值相一致的伦理、诚实和可靠推理。