对比策略梯度:以监督友好的方式在序列级别上对齐 LLM
原文中文,约300字,阅读约需1分钟。发表于: 。Reinforcement Learning 与 Large Language Models 的直接对齐方法之间存在悬殊,因此引入了 Contrastive Policy Gradient 算法来解决,在 Summarization 任务中获得了可靠的结果。
通过大规模预训练语言模型引入了名为Neural PG-RANK的新型训练算法,使用Plackett-Luce排序策略实例化语言模型,提供了合理的端到端训练方法,并与下游决策质量相统一。实验证明,Neural PG-RANK在领域内表现出卓越性能提升,并在下游问答任务中实现了跨领域泛化。