小红花·文摘

本研究提出了一种新方法，解决了离散因素化行动空间中组合行动集大的挑战。通过对Q函数的降维投影分析，确保了Q函数的无偏性，并引入了行动分解的强化学习框架，显著提升了样本效率。