小红花·文摘

本研究提出了一种少样本元离线强化学习算法，旨在解决现有强化学习在安全性和成本上的在线交互依赖问题。该算法利用静态离线数据集进行训练，能够有效扩展到新环境，优化无人机轨迹和调度策略，实现快速收敛，并达到最佳的年龄信息和传输功率平衡。