小红花·文摘

本文介绍了DeepSpeed Chat中phase3的训练过程，包括使用RLHF Finetuning进行经验采集，对prompt进行flip翻转操作以避免不合理的生成，以及RM模型对对话评分的处理策略。同时，文章还介绍了模型的初始化和经验数据的获取过程。