本研究提出了一种少样本元离线强化学习算法,旨在解决现有强化学习在安全性和成本上的在线交互依赖问题。该算法利用静态离线数据集进行训练,能够有效扩展到新环境,优化无人机轨迹和调度策略,实现快速收敛,并达到最佳的年龄信息和传输功率平衡。
完成下面两步后,将自动完成登录并继续当前操作。