量化大型语言模型的泛化复杂性
原文中文,约2400字,阅读约需6分钟。发表于: 。本研究针对大型语言模型(LLMs)在泛化能力与记忆之间的纠缠问题,提出了新颖的Scylla动态评估框架,通过在5个复杂度级别上的20个任务中量化评估模型对分布内(ID)和分布外(OOD)数据的表现。研究发现,任务复杂性与ID与OOD数据表现差距之间的非单调关系揭示了所谓的“泛化谷”,指出LLMs的泛化能力存在上限,并表明随着模型规模的增大,能处理更复杂任务的临界复杂度也随之提高。
研究提出了Scylla动态评估框架,用于量化评估大型语言模型在分布内和分布外数据上的表现。发现任务复杂性与表现差距存在非单调关系,揭示了LLMs的泛化能力有上限。随着模型规模增大,处理复杂任务的能力提高。研究还强调了微调对泛化能力的影响,并探讨了模型复杂性对微调性能的影响。