该论文介绍了MiniZero,一种支持四种先进算法的零知识学习框架,并通过评估这些算法在棋盘游戏和Atari游戏中的性能表现。在棋盘游戏中,使用更多模拟会产生更高的性能;在Atari游戏中,MuZero和Gumbel MuZero都值得考虑。论文还介绍了一种渐进式模拟的方法,在训练过程中逐渐增加模拟预算,取得了显著优异的性能。该论文为零知识学习算法的未来研究提供了基准。
完成下面两步后,将自动完成登录并继续当前操作。