大模型内部有一个平面和直边构成的几何对象

💡 原文中文,约1300字,阅读约需3分钟。
📝

内容提要

该论文研究了大型语言模型中表示分类和层次概念的方法,发现语义中存在简单的几何结构。通过扩展线性表示假设,论文揭示了一个简单的几何结构。实验验证了理论结果,并讨论了相关工作和未来研究方向。

🎯

关键要点

  • 该论文研究大型语言模型中分类和层次概念的几何表示。

  • 在Gemma LLM上验证了理论结果,估算了WordNet中957个层次相关概念的表示。

  • 研究发现大模型编码语义中存在简单的几何结构:平面和直边的几何对象。

  • 主要探讨两个问题:类别概念的表示和概念之间的层级关系编码。

  • 扩展线性表示假设,发现简单类别概念为单纯几何形,层级相关概念为正交向量。

  • 复杂概念被表示为由单纯形的直边和面构成的多面体,反映层级结构。

  • 论文贡献包括展示从二元概念到向量表示的转移,利用向量运算组合表示。

  • 展示概念之间的语义层级如何被几何编码为表示之间的正交性。

  • 构建类别变量的表示,展示“自然”概念的表示为单纯形。

  • 通过实验验证理论结果,讨论相关工作和未来研究方向。

  • 结果为理解语言模型中表示空间的结构提供基础,指明未来研究方向。

  • 论文代码已在GitHub上公开,地址为github.com/KihoPark/LLM_Categorical_Hierarchical_Representations。

➡️

继续阅读