本文提出了一种新方法——约束潜在动作策略(C-LAP),旨在解决离线强化学习中因静态数据集导致的政策生成不在分布内的问题。C-LAP通过学习观察与动作的联合分布,显著减少了学习政策所需的梯度步骤,并在实验中表现出色。
STRODE是一种能够学习时间序列数据的时间和动态的概率微分方程,无需时间注释。该方法成功地推断了时间序列数据的事件时间,并在实验中表现出与现有技术相当或更好的性能。
该文介绍了一种基于循环的算法,用于解决自动引导车辆(AGV)的在线冲突自由调度和路径规划问题。该算法在实验中表现优异,要么优于其他算法,要么在更短的计算时间内得到同样好的解。
本文提出了一种无监督内在图像分解框架,通过探索反射和阴影之间的独立性、域不变内容约束和物理约束,直接从无监督和不相关的数据中学习反射和阴影的潜在特征。实验表明,该方法在合成和实际图像数据集上表现卓越。
完成下面两步后,将自动完成登录并继续当前操作。