小红花·文摘

该研究使用“Sushi Go Party!”游戏建立了强化学习算法和学习记忆能力的基本标准，并量化了算法在不同纸牌组合上的普适性。同时，通过拟合决策规则对模型策略进行了解释和与人类选手的排名偏好进行了比较，发现了共同规则和新策略。