小红花·文摘

本研究提出了一种无悔的在线强化学习算法，旨在为安全关键系统在未知动态环境中合成控制器。该算法能够有效评估学习过程中接近最佳行为的程度，显著提升基于线性时序逻辑（LTL）规范的任务学习性能与效率。