小红花·文摘

本研究探讨了大型语言模型在扩展行为中的相变现象，重新表述了Transformer架构，发现与文本生成温度和模型参数大小相关的两个显著相变。这些发现有助于估计模型内部维度，并揭示新能力的出现。

BriefGPT - AI 论文速递 ·

通过研究能量驱动的生成模型RBM中的特征编码过程，我们发现了与经验概率分布的主要模式的渐进学习相关的相变现象。在高维极限下，学习导致了尖锐相变。

BriefGPT - AI 论文速递 ·