大型语言模型黑匣子揭秘:整体可解释性的两个视角

📝

内容提要

通过一种全面解释性的框架,我们提出打开大语言模型的黑匣子,既关注机制可解释性、组件功能和训练动态,又通过隐藏表示进行行为分析,以实现与人类价值相一致的伦理、诚实和可靠推理。

🏷️

标签

➡️

继续阅读