基于模型预测控制、强化学习与回滚的优越计算机国际象棋

本文解决了计算机国际象棋中的移动选择问题，通过模型预测控制、回滚和强化学习的方法引入了一种新的架构。研究结果表明，该架构显著提升了位置评估引擎的性能，为各种水平的国际象棋引擎增加了一层智能。

研究发现，机器学习的重要突破主要归功于大规模的注意力架构和数据集。通过对一个包含一千万局国际象棋比赛的数据集进行监督学习，使用了2.7亿个参数的transformer模型，得到了约150亿个数据点，并达到了2895的Lichess快棋等级分。研究还发现，该模型在性能上超过了AlphaZero和GPT-3.5-turbo-instruct。研究表明，只有在足够规模的情况下，才能展现强大的国际象棋性能。

transformer模型国际象棋国际象棋性能数据集机器学习注意力架构计算机