小红花·文摘

研究发现，对于大型语言模型，通过权重剪枝和调整模型大小等扩展技术会对其核心能力产生不同影响。减小模型大小30%以上会降低回忆预训练中的事实能力，但减小60-70%仍能保留处理上下文信息的能力。密集扩展和权重剪枝都表现出这种行为，说明模型大小扩展对事实回忆和上下文学习有本质不同的影响。