语言模型的策略梯度训练方法用于排名
原文中文,约300字,阅读约需1分钟。发表于: 。通过利用大规模预训练语言模型,我们引入了一种名为 Neural PG-RANK 的新型训练算法,该算法通过实例化一个语言模型为 Plackett-Luce 排序策略,为检索模型的端到端训练提供了一种合理的方法,并有效地将训练目标与下游决策质量相统一。实验证明,当训练目标与评估设置一致时,Neural PG-RANK 在领域内表现出卓越的性能提升,并在下游问答任务中对一些关键数据集进行了实质性的跨领域泛化。
该文介绍了一种名为 Neural PG-RANK 的新型训练算法,通过实例化一个语言模型为 Plackett-Luce 排序策略,为检索模型的端到端训练提供了一种合理的方法,并有效地将训练目标与下游决策质量相统一。