小红花·文摘

本研究提出了一个新的框架，解决了离线强化学习算法在有限样本目标数据集上性能下降的问题。通过实验证明了源数据集与目标数据集的权重对算法性能有影响，发现了一个最优权重以平衡两者。该研究对实际应用具有重要影响。