基于模型预测控制、强化学习与回滚的优越计算机国际象棋
原文中文,约400字,阅读约需1分钟。发表于: 。本文解决了计算机国际象棋中的移动选择问题,通过模型预测控制、回滚和强化学习的方法引入了一种新的架构。研究结果表明,该架构显著提升了位置评估引擎的性能,为各种水平的国际象棋引擎增加了一层智能。
研究发现,机器学习的重要突破主要归功于大规模的注意力架构和数据集。通过对一个包含一千万局国际象棋比赛的数据集进行监督学习,使用了2.7亿个参数的transformer模型,得到了约150亿个数据点,并达到了2895的Lichess快棋等级分。研究还发现,该模型在性能上超过了AlphaZero和GPT-3.5-turbo-instruct。研究表明,只有在足够规模的情况下,才能展现强大的国际象棋性能。