小红花·文摘

Thinking Machine的新研究提出了一种名为在线策略蒸馏的方法，结合强化学习与微调，显著提高小模型的训练效率，减少训练步骤50-100倍，适合资源有限的个人和小公司。同时，该方法有效解决了AI的“灾难性遗忘”问题，支持模型的终身学习。