线性二次自适应控制的多任务表示学习的遗憾分析
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
学习是强大工具,多任务表示学习中的遗憾数量级为O(根号(T/H))或O(根号(d_u d_theta) 根号(T) + T^(3/4)/H^(1/5))。多个代理的好处通过与单任务遗憾比较可见。在困难探索中,共享表示可减少特定任务参数数量。
🎯
关键要点
- 表示学习是一种强大的工具,能够在多个代理或领域上进行学习。
- 大多数保证表示学习的静态设置下成立,而动态设置下的协作操作更具挑战性。
- 在动态设置中,分析了线性二次控制中多任务表示学习的遗憾。
- 在良性探索情况下,代理在 T 个时间步后的遗憾数量级为 O(根号(T/H))。
- 在困难探索情况下,遗憾数量级为 O(根号(d_u d_theta) 根号(T) + T^(3/4)/H^(1/5))。
- 多个代理的好处通过与单任务遗憾比较可见。
- 在困难探索情况下,通过跨任务共享表示,有效的特定任务参数数量通常较小。
➡️