本文探讨了大语言模型(LLMs)在记忆事实知识方面的挑战,并提出通过训练数据修剪来提高事实准确性。研究表明,当训练数据中的信息量超过模型容量时,事实准确性会下降。作者提出了一种基于训练损失的数据选择方案,能够有效提升模型的事实记忆能力,甚至使小模型的表现接近大模型。
本研究探讨了大型语言模型(LLMs)内部编码的事实知识与其输出之间的差距,发现内部知识显著高于外部表达,平均差距达到40%。这一发现揭示了LLMs生成能力的局限性。
本研究提出UAlign框架,旨在提高大型语言模型在表达事实知识时的可靠性。通过不确定性估计来界定知识边界,增强模型对事实知识的对齐。实验结果表明,UAlign提升了模型对已知问题的回答信心,并能有效拒绝未知问题,展现出良好的性能和泛化能力。
本文探讨了大型语言模型(LLMs)在预训练中获取事实知识的来源和机制,揭示了其知识获取过程。
多语种知识编辑 (MKE) 旨在修订大型语言模型 (LLMs) 中的事实知识。研究发现不同语言中的相同事实知识通常激活一组共享的神经元,称为语言不可知事实神经元。通过定位和修改语言不可知事实神经元来同时编辑多语种知识的新方法优于现有的 MKE 方法,并取得了显著的编辑性能。
通过研究大型语言模型的预训练过程,发现增加预训练数据量并不显著提高模型的事实知识能力。训练步骤与记忆遗忘和事实知识的泛化之间存在幂律关系,重复训练数据会导致遗忘加速,而使用更大的批量大小有助于提高模型的遗忘鲁棒性。事实知识在预训练过程中的获取是通过逐步增加每一步预训练数据中出现的事实知识的概率,但此提升会受到后续遗忘的影响。这一解释合理地解释了大型语言模型的表现,如尾部知识的糟糕表现以及去重预训练语料库的好处。
本文提出了一种新的端到端框架,用于解码Large Language Models(LLMs)中隐藏的事实知识,并使用时间性知识图表达其在各层中的演化,以实现对LLMs的机理解释。通过解释性分析,揭示了LLMs中存在的潜在错误和事实知识的演化模式,为LLMs的机理解释迈出了一步。
本文研究了Knowledge Neurons框架中的知识神经元在Transformer网络中的作用。研究发现,事实知识主要归属于网络的中高层,而关系信息则由中间层次处理。实验结果证明了该模型可以处理不同语言的提示,并提供类似的信息。研究还发现,语法知识比事实知识更为分散。
本文提出了一个新任务,即在不降低模型在未修改信息方面的性能的情况下,显式修改 Transformer 模型中特定的事实知识,并基准化了几种方法。发现了用于知识修改的 Transformer 模型的关键组件,并提供了关于不同训练阶段对记忆和知识修改的见解。
我们提出了一种可扩展的主题词嵌入修改(SWEA)框架,用于编辑 LLMs 中的事实知识。展示了 SWEAOS 在多个数据集上的最先进推理能力。
本文研究了大型语言模型在提供事实知识方面的不一致性问题,并提出了两种缓解策略:扩展和使用检索语料库增强LM。结果表明,这两种策略都能减少不一致性,而使用检索增强方法更加高效。作者还考虑了Atlas模型的不同组件对一致性的贡献,并发现语法形式和其他评估任务的产物会影响一致性。
完成下面两步后,将自动完成登录并继续当前操作。