小红花·文摘

本文研究了在预算下动作建议的转移学习模型，发现变异系数 (CV) 对选择生成建议策略具有重要意义。提出了一种新的强化学习算法，能够学习何时提供建议，适应于学生和任务。认为在预算下学习建议是一个更通用的学习问题的例子。