大模型内部有一个平面和直边构成的几何对象
💡
原文中文,约1300字,阅读约需3分钟。
📝
内容提要
该论文研究了大型语言模型中表示分类和层次概念的方法,发现语义中存在简单的几何结构。通过扩展线性表示假设,论文揭示了一个简单的几何结构。实验验证了理论结果,并讨论了相关工作和未来研究方向。
🎯
关键要点
-
该论文研究大型语言模型中分类和层次概念的几何表示。
-
在Gemma LLM上验证了理论结果,估算了WordNet中957个层次相关概念的表示。
-
研究发现大模型编码语义中存在简单的几何结构:平面和直边的几何对象。
-
主要探讨两个问题:类别概念的表示和概念之间的层级关系编码。
-
扩展线性表示假设,发现简单类别概念为单纯几何形,层级相关概念为正交向量。
-
复杂概念被表示为由单纯形的直边和面构成的多面体,反映层级结构。
-
论文贡献包括展示从二元概念到向量表示的转移,利用向量运算组合表示。
-
展示概念之间的语义层级如何被几何编码为表示之间的正交性。
-
构建类别变量的表示,展示“自然”概念的表示为单纯形。
-
通过实验验证理论结果,讨论相关工作和未来研究方向。
-
结果为理解语言模型中表示空间的结构提供基础,指明未来研究方向。
-
论文代码已在GitHub上公开,地址为github.com/KihoPark/LLM_Categorical_Hierarchical_Representations。
➡️