语言模型中的线性表示与预训练数据频率

📝

内容提要

本研究解决了预训练数据频率对语言模型表示形成的影响这一问题。我们提出了一种新方法,探索概念在语言模型中的线性编码与预训练数据的关联,发现特定频率的共现会显著影响线性表示的形成。这项研究可能为改善模型的行为和调整训练数据提供新的思路。

🏷️

标签

➡️

继续阅读