我们提出了一种“基于清单反馈的强化学习”(RLCF)方法,通过提取指令中的清单并评估响应的满足程度来计算奖励。RLCF在五个基准测试中表现优异,显著提升了模型的指令遵循能力,证明清单反馈是改善语言模型的重要工具。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: