Thinking Machine的新研究提出了一种名为在线策略蒸馏的方法,结合强化学习与微调,显著提高小模型的训练效率,减少训练步骤50-100倍,适合资源有限的个人和小公司。同时,该方法有效解决了AI的“灾难性遗忘”问题,支持模型的终身学习。
完成下面两步后,将自动完成登录并继续当前操作。