小红花·文摘

本文介绍了一种名为混合增强学习来自 AI 反馈（HRLAIF）的方法，通过使用 AI 反馈进行增强学习，可以在大型语言模型（LLM）训练的快速策略迭代阶段比通过人类反馈进行增强学习具有更短的注释周期和更低的成本，提高效率。该方法通过增强 AI 注释的准确性，使模型在训练过程中的帮助更可靠，并通过 AI 进行红队行动，进一步提高模型的无害性。与之前的策略模型相比，HRLAIF 方法在满意率上实现了 2.08% 的增加，有效解决了基本 RLAIF 后满意率下降 4.58% 的问题。