本文研究了在预算下动作建议的转移学习模型,发现变异系数 (CV) 对选择生成建议策略具有重要意义。提出了一种新的强化学习算法,能够学习何时提供建议,适应于学生和任务。认为在预算下学习建议是一个更通用的学习问题的例子。
完成下面两步后,将自动完成登录并继续当前操作。