本研究提出了一种基于强化学习的微调方法,解决了游戏描述生成中的特征再现问题。引入语法和概念奖励后,实验结果表明该方法在文本的语法正确性和忠实性方面显著优于传统监督微调,具有较大应用潜力。
本文提出了一种新颖的两阶段框架,利用大型语言模型和上下文学习,将自然语言游戏描述转换为博弈论中的扩展形式表示。研究表明,该框架在生成准确的扩展形式游戏方面显著优于基线模型,具有广泛的自动化应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。