小红花·文摘

本文研究了扩展的因果语言模型（CLMs）的体系结构和训练对其进展向神经坍缩（NC）的影响。研究发现，随着规模的扩大，NC 的特性与泛化之间存在联系。研究强调了 NC 的一般性，希望进一步研究该现象以加深对 LLMs（大型语言模型）和神经网络的理解，并改进基于 NC 相关特性的现有架构。