大型语言模型中分类和层级概念的几何结构
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究了大型语言模型中编码语义含义的问题,通过扩展线性表示假设,发现类别概念可以用单纯形表示,层级关系的概念在某种意义上是正交的,复杂的概念由单纯形的直和构成的多面体表示。使用WordNet数据验证了这些理论结果。
🎯
关键要点
- 大型语言模型的表示空间中编码语义含义是可解释性中的一个根本问题。
- 研究了如何表示类别概念,如“哺乳动物”、“鸟类”、“爬行动物”、“鱼类”等。
- 探讨了如何编码概念之间的层级关系,例如“狗”是“哺乳动物”的一种。
- 通过扩展线性表示假设,发现简单的类别概念被表示为单纯形。
- 具有层级关系的概念在某种意义上是正交的。
- 复杂的概念被表示为由单纯形的直和构成的多面体,反映其层级结构。
- 使用来自WordNet的数据验证了这些理论结果。
- 在Gemma大型语言模型上估计了957个具有层级关系的概念的表示。
➡️