本研究提出了一种新颖的少样本元离线强化学习算法,旨在解决现有框架在安全性、成本和可扩展性方面的不足。该算法利用静态离线数据集,无需在线交互,优化无人机的轨迹和调度策略,表现优异。
完成下面两步后,将自动完成登录并继续当前操作。