小红花·文摘

本文提出了奖励教学的新概念，通过调整本地奖励指导客户端向全局最优性靠拢。提出了逐步方法 Teaching-After-Learning（TAL)，以解决无法修改协议的情况。通过开发技术方法分析了TAL的特定保证，并提出了Teaching-While-Learning（TWL)算法，通过连续臂消除打破了TAL中的非自适应分离。实验证明了该算法的有效性和广泛性。