Apple Machine Learning Research ·

基于层次记忆的预训练：区分长尾知识与常识

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本文介绍了一种基于层次记忆的预训练方法，旨在提升小型语言模型的性能。该方法通过访问大型记忆库，有效存储和提取长尾知识，同时保持常识理解。实验结果表明，使用这种记忆增强架构的小模型在性能上可与参数更多的常规模型相媲美，并在资源受限的设备上表现优异。

🎯

关键要点

现代语言模型的性能提升主要依赖于参数的扩展，然而将所有知识压缩到参数中是不必要的。
提出了一种基于记忆增强架构的预训练策略，旨在解决边缘设备的内存和计算限制。
小型语言模型通过访问大型层次化参数记忆库来存储和提取长尾知识，同时保持常识理解。
实验表明，160M参数的小模型结合18M参数的记忆块，能够与超过2倍参数的常规模型相媲美。
研究了在变换器架构中，参数记忆的最佳类型和大小，发现层次化前馈记忆在不同架构中表现稳健。

❓

延伸问答

什么是基于层次记忆的预训练方法？

基于层次记忆的预训练方法是一种通过访问大型记忆库来存储和提取长尾知识，同时保持常识理解的小型语言模型预训练策略。

这种预训练方法如何提升小型语言模型的性能？

该方法通过结合小型模型与大型层次化记忆库，使模型能够有效存储和提取知识，从而在性能上与更大参数的模型相媲美。

实验结果显示了什么？

实验表明，160M参数的小模型结合18M参数的记忆块，能够与超过2倍参数的常规模型在性能上相媲美。

这种方法适用于哪些设备？

这种基于层次记忆的预训练方法特别适用于资源受限的边缘设备，因为它减少了对内存和计算的需求。

层次化前馈记忆的优势是什么？

层次化前馈记忆在不同的变换器架构中表现稳健，能够有效支持模型的知识存储和提取。

该方法如何处理长尾知识？

该方法通过在记忆参数中存储长尾知识，使小型语言模型能够在推理时访问相关的上下文记忆块。

🏷️

继续阅读

NVIDIA研究解锁先进抓取技术、更智能的自动驾驶和大规模代理训练
NVIDIA的研究展示了通过大规模训练提升机器人抓取、自动驾驶和虚拟代理能力的突破。GraspGen-X模型适应不同抓手，LCDrive加速自动驾驶决策，...
语音增强中的自监督学习：从无配对训练到基础模型先验
语音增强（SE）面临数据、目标和任务等挑战，自监督学习（SSL）逐渐成为解决方案。SSL通过未配对数据学习和生成式方法，重塑了SE的训练目标。研究表明，S...
在人工智能代理时代，CPU为何仍然重要
文章讨论了CPU在人工智能基础设施中的重要性，特别是在聊天机器人向自主代理转变的过程中。Google的Farhat和Arm的Patel指出，CPU在任务执...
微软如何将仓库迁移至GitHub
微软的Azure DevOps在过去十年中支持软件开发，随着AI的发展，代码存储位置变得至关重要。CAP组织已将80%的仓库迁移至GitHub，利用AI能...
将您的架构待办事项与技术路线图优先级（TRP）对齐
成功的数字化转型需要业务和技术利益相关者在编写代码前达成共识。70%的转型失败源于利益相关者不一致。使用技术路线图优先级（TRP）框架，组织可以快速确定优...
适用于iPhone和Pixel的最佳Qi2充电宝
本文评测了七款Qi2和Qi2.2无线充电宝，推荐了两款性能优异的产品：Baseus PicoGo AM52以25W无线充电速度表现最佳，能在一小时内为iP...