本文探讨了大语言模型(LLMs)在记忆事实知识方面的挑战,并提出通过训练数据修剪来提高事实准确性。研究表明,当训练数据中的信息量超过模型容量时,事实准确性会下降。作者提出了一种基于训练损失的数据选择方案,能够有效提升模型的事实记忆能力,甚至使小模型的表现接近大模型。
本研究探讨了大型语言模型(LLMs)内部编码的事实知识与其输出之间的差距,发现内部知识显著高于外部表达,平均差距达到40%。这一发现揭示了LLMs生成能力的局限性。
本文探讨了大型语言模型(LLMs)在预训练中获取事实知识的来源和机制,揭示了其知识获取过程。
本文研究了大型语言模型(LLMs)在事实知识记忆方面的表现,发现检索增强的模型显著提升了性能。分析不同扩展技术后,揭示了模型规模对事实回忆和上下文学习的影响。此外,研究探讨了LLMs在知识冲突时的行为及其对事实知识的理解能力,指出模型在记忆低频事实时存在困难。这些发现为LLMs的进一步开发提供了重要参考。
该研究创建了多语言基准测试,评估语言模型的事实知识检索能力,并提出基于语言切换的方法。研究发现不同语言间的事实知识差异显著,英语表现优异,且多语言模型存在地理偏见。通过评估模型一致性和推理能力,专有模型通常优于公开模型。研究还提出在混合语言数据上微调模型的方法,以提升跨语言性能。
本文提出了一种利用知识图谱(KGs)评估大型语言模型(LLMs)事实知识的框架,通过自动生成问题和答案来评估LLMs的回答准确性。研究发现,ChatGPT在各领域表现最佳,LLMs的表现受微调、领域和问题复杂性影响。同时探讨了KG与LLMs结合的多种方法,展示了其在问答任务中的应用潜力。
研究表明,现有大型语言模型(LLMs)在事实知识的广度和准确性上存在不足,影响其可靠性。通过基准测试评估模型的知识召回能力,发现模型规模和指令调整对性能有显著影响。提出了新的方法来校准和增强模型的事实知识,并强调了多语言模型在知识一致性方面的挑战。
本文提出了一个新任务,即在不降低模型在未修改信息方面的性能的情况下,显式修改 Transformer 模型中特定的事实知识,并基准化了几种方法。发现了用于知识修改的 Transformer 模型的关键组件,并提供了关于不同训练阶段对记忆和知识修改的见解。
我们提出了一种可扩展的主题词嵌入修改(SWEA)框架,用于编辑 LLMs 中的事实知识。展示了 SWEAOS 在多个数据集上的最先进推理能力。
本文研究了大型语言模型在提供事实知识方面的不一致性问题,并提出了两种缓解策略:扩展和使用检索语料库增强LM。结果表明,这两种策略都能减少不一致性,而使用检索增强方法更加高效。作者还考虑了Atlas模型的不同组件对一致性的贡献,并发现语法形式和其他评估任务的产物会影响一致性。
完成下面两步后,将自动完成登录并继续当前操作。