语言模型到底能记忆多少内容?Meta 的新框架定义了比特级的模型容量

现代语言模型的记忆行为面临越来越多的质疑。例如,一个拥有 80 亿个参数的转换器,需要用 15 万亿个词元进行训练,研究人员开始质疑这些模型是否能够以有意义的方式记忆训练数据。数据...

研究者质疑现代语言模型的记忆行为,提出新方法评估模型对数据点的理解,区分非预期记忆与泛化。实验表明,GPT系列模型的记忆容量约为3.6位/参数,且随着训练集增大,记忆力下降。该研究为理解模型行为提供了框架,推动未来模型评估与隐私研究。

语言模型到底能记忆多少内容?Meta 的新框架定义了比特级的模型容量
原文中文,约1500字,阅读约需4分钟。发表于:
阅读原文