本研究提出了一种创新的基于滚动的深度强化学习算法,解决动态商业环境中的资源分配问题。实验结果显示,该算法在六个业务流程中学习到的最佳策略优于现有算法。
本文介绍了一种新颖的决策感知替代损失函数家族,称为扰动梯度(PG)损失函数。与现有的替代损失函数不同,PG损失函数的近似误差随着样本数量的增加而消失。该方法在错配设置中渐近地产生最佳策略,尤其在基础模型发生错配且噪声不是中心对称时表现优于现有提案。PG损失函数提供了一种新颖的、可计算的、决策感知学习的方法。
本文介绍了一种新颖的决策感知替代损失函数家族,称为扰动梯度(PG)损失函数。与现有的替代损失函数不同,PG损失函数的近似误差随着样本数量的增加而消失。该方法在错配设置中渐近地产生最佳策略,尤其在基础模型发生错配且噪声不是中心对称时表现优于现有提案。PG损失函数提供了一种新颖的、在理论上有理据的、可计算的、决策感知学习的方法。
完成下面两步后,将自动完成登录并继续当前操作。