小红花·文摘

LARL-RM算法通过自动机编码将高层知识引入强化学习，利用大型语言模型获取领域特定知识，实现全闭环强化学习。算法具有收敛到最优策略的理论保证，并在两个案例研究中实现了30%的加速收敛。