小红花·文摘 - 小红花技术领袖俱乐部

本文提出了一种新的在线强化学习方法，通过使用多样的过去轨迹作为指导，使得算法更快、更高效。实验结果表明，该方法在多样化探索和避免局部最优方面优于基准方法。

使用软自我生成指导学习多样化策略

BriefGPT - AI 论文速递 ·