级联奖励采样用于高效解码时间对齐
原文中文,约500字,阅读约需1分钟。发表于: 。通过级联奖励采样(CARDS)技术,可以在高效并且成本低的情况下生成既有高奖励又符合高似然概率的文本,大幅提升生成效率和对齐评分。
大型语言模型(LLMs)可以通过人类反馈的强化学习(RLHF)提高,但微调成本高。研究发现,全序列上训练的奖励模型与评分部分序列不兼容。建议在部分序列上训练Bradley-Terry奖励模型,并从隐含的标记级策略中自回归采样。该方法优于之前的RGTG方法,且无需大规模LLM微调。