本研究提出了一个新的框架,解决了离线强化学习算法在有限样本目标数据集上性能下降的问题。通过实验证明了源数据集与目标数据集的权重对算法性能有影响,发现了一个最优权重以平衡两者。该研究对实际应用具有重要影响。
完成下面两步后,将自动完成登录并继续当前操作。