小红花·文摘

该论文介绍了MiniZero，一种支持四种先进算法的零知识学习框架，并通过评估这些算法在棋盘游戏和Atari游戏中的性能表现。在棋盘游戏中，使用更多模拟会产生更高的性能；在Atari游戏中，MuZero和Gumbel MuZero都值得考虑。论文还介绍了一种渐进式模拟的方法，在训练过程中逐渐增加模拟预算，取得了显著优异的性能。该论文为零知识学习算法的未来研究提供了基准。