小红花·文摘

减少灌输以容纳更多：训练数据修剪提升事实记忆能力

Apple Machine Learning Research ·

本研究探讨了大型语言模型（LLMs）内部编码的事实知识与其输出之间的差距，发现内部知识显著高于外部表达，平均差距达到40%。这一发现揭示了LLMs生成能力的局限性。

内外部知识：大型语言模型中的隐含事实知识

BriefGPT - AI 论文速递 ·

揭示语言模型在预训练中的事实学习

DEV Community ·

本文研究了大型语言模型（LLMs）在事实知识记忆方面的表现，发现检索增强的模型显著提升了性能。分析不同扩展技术后，揭示了模型规模对事实回忆和上下文学习的影响。此外，研究探讨了LLMs在知识冲突时的行为及其对事实知识的理解能力，指出模型在记忆低频事实时存在困难。这些发现为LLMs的进一步开发提供了重要参考。

语言模型中虚构知识的学习与遗忘

BriefGPT - AI 论文速递 ·

该研究创建了多语言基准测试，评估语言模型的事实知识检索能力，并提出基于语言切换的方法。研究发现不同语言间的事实知识差异显著，英语表现优异，且多语言模型存在地理偏见。通过评估模型一致性和推理能力，专有模型通常优于公开模型。研究还提出在混合语言数据上微调模型的方法，以提升跨语言性能。

一致性表象之下：探索大语言模型中的跨语言知识表征共享

BriefGPT - AI 论文速递 ·

本文提出了一种利用知识图谱（KGs）评估大型语言模型（LLMs）事实知识的框架，通过自动生成问题和答案来评估LLMs的回答准确性。研究发现，ChatGPT在各领域表现最佳，LLMs的表现受微调、领域和问题复杂性影响。同时探讨了KG与LLMs结合的多种方法，展示了其在问答任务中的应用潜力。

事实发现器 —— 通过融合知识图谱增强大规模语言模型的领域专业知识

BriefGPT - AI 论文速递 ·

研究表明，现有大型语言模型（LLMs）在事实知识的广度和准确性上存在不足，影响其可靠性。通过基准测试评估模型的知识召回能力，发现模型规模和指令调整对性能有显著影响。提出了新的方法来校准和增强模型的事实知识，并强调了多语言模型在知识一致性方面的挑战。

大型语言模型在预训练期间如何获取事实知识？

BriefGPT - AI 论文速递 ·

本文提出了一个新任务，即在不降低模型在未修改信息方面的性能的情况下，显式修改 Transformer 模型中特定的事实知识，并基准化了几种方法。发现了用于知识修改的 Transformer 模型的关键组件，并提供了关于不同训练阶段对记忆和知识修改的见解。

Transformer 前馈层中关键值记忆更新的实证研究

BriefGPT - AI 论文速递 ·

我们提出了一种可扩展的主题词嵌入修改（SWEA）框架，用于编辑 LLMs 中的事实知识。展示了 SWEAOS 在多个数据集上的最先进推理能力。

SWEA：通过主题词嵌入修改大型语言模型的事实知识

BriefGPT - AI 论文速递 ·

本文研究了大型语言模型在提供事实知识方面的不一致性问题，并提出了两种缓解策略：扩展和使用检索语料库增强LM。结果表明，这两种策略都能减少不一致性，而使用检索增强方法更加高效。作者还考虑了Atlas模型的不同组件对一致性的贡献，并发现语法形式和其他评估任务的产物会影响一致性。

规模、检索增强与形式对语言模型事实一致性的影响

BriefGPT - AI 论文速递 ·