基于标签敏感奖励的增强学习在自然语言理解中的应用
📝
内容提要
通过引入标签敏感的奖励机制,增强了大规模语言模型在自然语言理解任务中的性能,相比有监督微调模型和基于增强学习的模型,平均性能提升分别为 1.54% 和 0.69%。
🏷️
标签
➡️
通过引入标签敏感的奖励机制,增强了大规模语言模型在自然语言理解任务中的性能,相比有监督微调模型和基于增强学习的模型,平均性能提升分别为 1.54% 和 0.69%。