小红花·文摘

本研究提出了一种新算法Edge Delayed Deep Deterministic Policy Gradient（EdgeD3），旨在解决深度强化学习中的过度估计偏差问题。该算法专为边缘场景优化，显著提高性能，节省25% GPU时间，并在基准测试中超越现有方法。