本研究提出了一种新方法,通过隐式奖励从英文模型获取偏好,并将其迭代训练转移到其他语言,从而有效提升多语言模型性能,减少对多语言偏好数据的需求。
文章介绍了UNA方法,它统一了RLHF、DPO和KTO对齐技术。UNA通过通用隐式奖励函数简化训练流程,支持多种反馈数据,提升模型性能和稳定性。实验表明,UNA在任务表现、训练速度和内存占用方面优于传统方法,尤其在大规模模型处理上表现突出。
完成下面两步后,将自动完成登录并继续当前操作。