本研究提出了一种基于强化学习的微调方法,解决了游戏描述生成中的特征再现问题。引入语法和概念奖励后,实验结果表明该方法在文本的语法正确性和忠实性方面显著优于传统监督微调,具有较大应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。