研究提出了Scylla动态评估框架,用于量化评估大型语言模型在分布内和分布外数据上的表现。发现任务复杂性与表现差距存在非单调关系,揭示了LLMs的泛化能力有上限。随着模型规模增大,处理复杂任务的能力提高。研究还强调了微调对泛化能力的影响,并探讨了模型复杂性对微调性能的影响。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: