本研究提出了一种新算法Edge Delayed Deep Deterministic Policy Gradient(EdgeD3),旨在解决深度强化学习中的过度估计偏差问题。该算法专为边缘场景优化,显著提高性能,节省25% GPU时间,并在基准测试中超越现有方法。
完成下面两步后,将自动完成登录并继续当前操作。