小红花·文摘

本研究提出了TimeRL系统，旨在解决复杂深度强化学习算法中的数据依赖性问题。通过引入递归张量的声明式编程模型，TimeRL在执行速度上比现有系统快47倍，并显著降低了GPU内存使用。