本研究提出UniCBE框架,解决了基于比较的评估方法在优化单一目标时偏好信号利用不足的问题。通过整合三个解耦的采样概率矩阵,显著提高了评估的准确性和收敛性,节省了17%的评估预算,表现优异。
本研究提出SimuDICE框架,旨在解决离线强化学习中的策略导出问题。通过生成合成经验和调整采样概率,提升经验质量,实验结果表明其性能与现有算法相当。
完成下面两步后,将自动完成登录并继续当前操作。