小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
减少灌输以容纳更多:训练数据修剪提升事实记忆能力

本文探讨了大语言模型(LLMs)在记忆事实知识方面的挑战,并提出通过训练数据修剪来提高事实准确性。研究表明,当训练数据中的信息量超过模型容量时,事实准确性会下降。作者提出了一种基于训练损失的数据选择方案,能够有效提升模型的事实记忆能力,甚至使小模型的表现接近大模型。

减少灌输以容纳更多:训练数据修剪提升事实记忆能力

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-13T00:00:00Z

本研究探讨了大型语言模型(LLMs)内部编码的事实知识与其输出之间的差距,发现内部知识显著高于外部表达,平均差距达到40%。这一发现揭示了LLMs生成能力的局限性。

内外部知识:大型语言模型中的隐含事实知识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究提出UAlign框架,旨在提高大型语言模型在表达事实知识时的可靠性。通过不确定性估计来界定知识边界,增强模型对事实知识的对齐。实验结果表明,UAlign提升了模型对已知问题的回答信心,并能有效拒绝未知问题,展现出良好的性能和泛化能力。

UAlign:利用不确定性估计对大型语言模型进行事实一致性对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z
揭示语言模型在预训练中的事实学习

本文探讨了大型语言模型(LLMs)在预训练中获取事实知识的来源和机制,揭示了其知识获取过程。

揭示语言模型在预训练中的事实学习

DEV Community
DEV Community · 2024-11-13T08:33:59Z

多语种知识编辑 (MKE) 旨在修订大型语言模型 (LLMs) 中的事实知识。研究发现不同语言中的相同事实知识通常激活一组共享的神经元,称为语言不可知事实神经元。通过定位和修改语言不可知事实神经元来同时编辑多语种知识的新方法优于现有的 MKE 方法,并取得了显著的编辑性能。

多语言知识编辑与语种无关的事实神经网络

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

通过研究大型语言模型的预训练过程,发现增加预训练数据量并不显著提高模型的事实知识能力。训练步骤与记忆遗忘和事实知识的泛化之间存在幂律关系,重复训练数据会导致遗忘加速,而使用更大的批量大小有助于提高模型的遗忘鲁棒性。事实知识在预训练过程中的获取是通过逐步增加每一步预训练数据中出现的事实知识的概率,但此提升会受到后续遗忘的影响。这一解释合理地解释了大型语言模型的表现,如尾部知识的糟糕表现以及去重预训练语料库的好处。

大型语言模型在预训练期间如何获取事实知识?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-17T00:00:00Z

本文提出了一种新的端到端框架,用于解码Large Language Models(LLMs)中隐藏的事实知识,并使用时间性知识图表达其在各层中的演化,以实现对LLMs的机理解释。通过解释性分析,揭示了LLMs中存在的潜在错误和事实知识的演化模式,为LLMs的机理解释迈出了一步。

从 LLMs 中提取事件序列解释的潜在逻辑树

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

本文研究了Knowledge Neurons框架中的知识神经元在Transformer网络中的作用。研究发现,事实知识主要归属于网络的中高层,而关系信息则由中间层次处理。实验结果证明了该模型可以处理不同语言的提示,并提供类似的信息。研究还发现,语法知识比事实知识更为分散。

预训练 Transformer 中的知识传递

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-28T00:00:00Z

本文提出了一个新任务,即在不降低模型在未修改信息方面的性能的情况下,显式修改 Transformer 模型中特定的事实知识,并基准化了几种方法。发现了用于知识修改的 Transformer 模型的关键组件,并提供了关于不同训练阶段对记忆和知识修改的见解。

Transformer 前馈层中关键值记忆更新的实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z

我们提出了一种可扩展的主题词嵌入修改(SWEA)框架,用于编辑 LLMs 中的事实知识。展示了 SWEAOS 在多个数据集上的最先进推理能力。

SWEA:通过主题词嵌入修改大型语言模型的事实知识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-31T00:00:00Z

本文研究了大型语言模型在提供事实知识方面的不一致性问题,并提出了两种缓解策略:扩展和使用检索语料库增强LM。结果表明,这两种策略都能减少不一致性,而使用检索增强方法更加高效。作者还考虑了Atlas模型的不同组件对一致性的贡献,并发现语法形式和其他评估任务的产物会影响一致性。

规模、检索增强与形式对语言模型事实一致性的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-02T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码