本文提出了一种统一微调(UFT)方法,将序列化应用中的SFT与对齐整合为单一训练阶段,使用相同的目标和损失函数。实验结果表明,UFT在指令调优数据上优于SFT,显著减少了灾难性遗忘,并提升了指令执行和真实性任务的表现。
完成下面两步后,将自动完成登录并继续当前操作。