小红花·文摘

本文研究了将最小贝叶斯风险整合到蒸馏训练中的方法，并在翻译任务中验证了其改进效果。同时，对数据效率和容量诅咒进行了详细分析。

BriefGPT - AI 论文速递 ·

本文介绍了一种解决BabyLM挑战的方法，通过训练一个由GPT-2和小型LLaMA模型组成的集成模型，并将其蒸馏成一个小型的58M参数LLaMA模型。结果表明，蒸馏训练可以在小数据集上超过教师模型的性能，并且比直接训练要更好。

BriefGPT - AI 论文速递 ·