小红花·文摘

本研究探讨了现代大型语言模型（LLMs）的深度利用效率，发现后半部分层的计算贡献显著低于前半部分，且缺乏证据表明模型通过增加深度来组合子结果。这表明深度模型只是将计算分散在更多层中，解释了规模增加导致收益递减的原因。