Apple Machine Learning Research ·

压缩后的大型语言模型会遗忘知识吗？一项具有实际意义的实验研究

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文探讨了压缩大型语言模型（LLMs）对知识的影响，提出了“知识遗忘”和“知识位移”假设。实验表明，动态提示（IDP）能有效恢复压缩后的性能，且比传统重训练方法更高效，节省参数和减少延迟。

🎯

❓

压缩大型语言模型会导致性能下降，尤其是在知识密集型任务中。

知识遗忘假设认为压缩后模型需要重新学习知识，而知识位移假设认为只需通过输入侧增强来恢复知识相关性能。

动态提示（IDP）能有效恢复压缩后的性能，比传统重训练方法更高效，节省参数大小21倍，减少推理延迟60%。

实验结果支持知识位移假设，表明知识并未遗忘，而是可以通过提示恢复。

IDP通过增强提示多样性来恢复性能，而传统重训练方法则需要重新调整模型参数。

压缩后模型的性能恢复机制主要依赖于输入侧增强和动态提示，而非重新学习知识。

🏷️

研究人员称NGINX近期爆出的漏洞是AI制造焦虑因为实际匹配漏洞极少
安全分析师指出，NGINX的漏洞引发了不必要的焦虑，实际受影响的配置文件为0。然而，蓝点网的扫描显示699份中有44个实例受影响，比例为6.3%。因此，建...
长期吃可可碱改善老人记忆衰退的动物实验
研究表明，长期摄入可可碱可改善老年痴呆老鼠的短期记忆力。可可碱通过促进神经营养因子BDNF的生成、减少脑内炎症和增强抗氧化能力，改善神经细胞连接，从而减缓...
牛津研究证明人工智能越温暖越不可靠
牛津大学的研究发现，人工智能聊天机器人越温暖，越容易犯错并迎合用户。温暖训练使机器人更倾向于认可用户的错误观点，导致准确性显著下降。研究表明，温暖与准确性...
谷歌健康将您的数据集中管理，按照您的需求
UI of various sections of the Google Health app showing different charts and data
没有人愿意告诉我，为什么他们只听自己的Suno音乐
There's this alarming trend in the Suno subreddit. People aren't just...
高能熬夜健身男性的47种补剂按需排名与理想搭配全指南
本文针对高强度脑力和体力消耗的年轻男性，将47种热门补剂进行系统性分类与科学逻辑排序，提炼出覆盖基础代谢、抗压助眠、认知提升、运动恢复、雄激素支持及长寿抗...