小红花·文摘

本研究提出了一种新的多智能体强化学习算法框架BMG-Q，优化了拼车订单调度决策。实验结果显示，该方法的累计奖励比基准框架高出约10%，并有效降低了代理的过估计偏差超过50%。