学习是强大工具,多任务表示学习中的遗憾数量级为O(根号(T/H))或O(根号(d_u d_theta) 根号(T) + T^(3/4)/H^(1/5))。多个代理的好处通过与单任务遗憾比较可见。在困难探索中,共享表示可减少特定任务参数数量。
完成下面两步后,将自动完成登录并继续当前操作。