本研究提出了一种新方法,解决了离散因素化行动空间中组合行动集大的挑战。通过对Q函数的降维投影分析,确保了Q函数的无偏性,并引入了行动分解的强化学习框架,显著提升了样本效率。
完成下面两步后,将自动完成登录并继续当前操作。