大语言模型中训练数据的非对抗性再现测量
发表于: 。本研究解决了大语言模型在非对抗性情境下对训练数据的再现问题。通过量化模型在面对自然和良性提示时的反应与预训练数据的重叠程度,发现流行对话型语言模型的输出中,最高可达15%的文本与网络上的片段重合,最严重的情况则可达到100%。研究还表明,尽管适当的提示策略可以改善这种再现现象,但要在最坏情况下有效减轻对训练数据的再现,仍需更强的防御措施。
本研究解决了大语言模型在非对抗性情境下对训练数据的再现问题。通过量化模型在面对自然和良性提示时的反应与预训练数据的重叠程度,发现流行对话型语言模型的输出中,最高可达15%的文本与网络上的片段重合,最严重的情况则可达到100%。研究还表明,尽管适当的提示策略可以改善这种再现现象,但要在最坏情况下有效减轻对训练数据的再现,仍需更强的防御措施。