本研究提出了一种新的多智能体强化学习算法框架BMG-Q,优化了拼车订单调度决策。实验结果显示,该方法的累计奖励比基准框架高出约10%,并有效降低了代理的过估计偏差超过50%。
完成下面两步后,将自动完成登录并继续当前操作。