本研究提出了一个数学框架,探讨大型语言模型(LLM)的自我改善机制,分析了输出检验、数据过滤和蒸馏的过程。实验结果表明,自我改善与模型预训练的计算量相关,揭示了性能提升的策略,为未来研究指明了方向。
完成下面两步后,将自动完成登录并继续当前操作。