本文介绍了DeepSpeed Chat中phase3的训练过程,包括使用RLHF Finetuning进行经验采集,对prompt进行flip翻转操作以避免不合理的生成,以及RM模型对对话评分的处理策略。同时,文章还介绍了模型的初始化和经验数据的获取过程。
完成下面两步后,将自动完成登录并继续当前操作。