大型语言模型的标记空间结构
📝
内容提要
本研究解决了对大型语言模型行为和局限性的基础性理解中的不足,重点分析了标记子空间的拓扑和几何结构。通过对GPT2、LLEMMA7B和MISTRAL7B模型进行测量,发现标记子空间是一个分层流形,并且维度与曲率与模型的生成流利性相关,这一发现可能对模型行为有重要影响。
🏷️
标签
➡️