小红花·文摘

研究提出了一种主动选择提示以收集偏好数据的算法（APO），在不损害策略性能的情况下实现了样本效率。实验评估验证了APO作为RLHF数据收集的解决方案，以促进LLMs与人类偏好的一致性。

BriefGPT - AI 论文速递 ·

研究提出了一种主动选择提示以收集偏好数据的算法（APO），在不损害策略性能的情况下实现了样本效率。实验评估验证了APO作为RLHF数据收集的解决方案，以促进LLMs与人类偏好的一致性。

BriefGPT - AI 论文速递 ·