从数据中学习游戏的潜在规则：一个棋类故事

本研究解决了小型预训练生成语言模型无法有效学习复杂游戏规则的问题。通过在棋类数据上进行指令微调，研究显示28M和125M参数的小型语言模型能够学习国际象棋的规则并提出合法走法，显著减少模型的幻觉现象，提高了准确性。这项工作展示了小型模型在特定领域数据下的潜在能力，推动了游戏智能的研究进展。

研究表明，机器学习的突破主要依赖于规模。通过在一千万局国际象棋比赛的数据集上，使用2.7亿参数的transformer模型进行训练，模型达到了2895的Lichess快棋等级分，超过了AlphaZero和GPT-3.5-turbo-instruct的性能。实验验证了模型和数据集规模的重要性。

transformer 国际象棋性能机器学习游戏规模