研究提出了一种主动选择提示以收集偏好数据的算法(APO),在不损害策略性能的情况下实现了样本效率。实验评估验证了APO作为RLHF数据收集的解决方案,以促进LLMs与人类偏好的一致性。
完成下面两步后,将自动完成登录并继续当前操作。