本文介绍了MemoryLLM,一种提高变换器中前馈网络可解释性的模型。MemoryLLM将前馈网络与自注意力解耦,允许将前馈网络视为无上下文的记忆检索机制。通过直接使用令牌嵌入训练前馈网络,MemoryLLM实现了高效的推理和存储转移。此外,Flex-MemoryLLM架构在传统变换器设计与MemoryLLM之间架起了桥梁,提升了性能。
本研究提出了两种技术,通过重新使用神经元和利用闪存的顺序数据访问能力,以满足大型语言模型的高效运行需求。这些方法使得模型能够在可用DRAM容量的两倍大小的情况下运行,并实现了CPU和GPU推理速度的显著提升。
完成下面两步后,将自动完成登录并继续当前操作。