小红花·文摘

本文提出了一种统一微调（UFT）方法，将序列化应用中的SFT与对齐整合为单一训练阶段，使用相同的目标和损失函数。实验结果表明，UFT在指令调优数据上优于SFT，显著减少了灾难性遗忘，并提升了指令执行和真实性任务的表现。