小红花·文摘

大型语言模型（LLMs）可以通过人类反馈的强化学习（RLHF）提高，但微调成本高。研究发现，全序列上训练的奖励模型与评分部分序列不兼容。建议在部分序列上训练Bradley-Terry奖励模型，并从隐含的标记级策略中自回归采样。该方法优于之前的RGTG方法，且无需大规模LLM微调。