本研究提出了一种新方法ReDRAW,旨在解决模拟与现实动态不一致的问题。通过对潜在状态动态进行残差校正,ReDRAW优化了强化学习代理的想象回合,有效避免了传统方法的过拟合现象。
本研究提出状态流转换器(SST),解决传统模型自回归生成的连续性问题。SST通过加权衰减的滑动窗口缓存,提升推理能力,展现元认知行为,实现更高效的信息处理。
本研究提出将观察重构和状态一致性纳入MuZero训练,以解决其潜在状态透明性不足的问题。结果表明,MuZero在棋类游戏中的潜在状态学习优于Atari游戏,为提升算法性能和可解释性提供了新思路。
研究者提出了MTLight方法,通过学习交通指标来增强智能体的观察,并构建多个辅助任务和监督任务来学习潜在状态。实验证明MTLight具有领先的收敛速度和渐近性能。
本研究提出了NCTRL估计框架,通过马尔可夫假设探索时间延迟因果关系。方法可可靠地识别时间延迟的潜在因果影响,并胜过现有基线方法。
车辆信号控制对缓解城市交通拥堵有重要影响。研究者提出了MTLight方法,通过学习交通指标增强智能体的观察,并构建多个辅助任务和监督任务来学习潜在状态。实验证明MTLight具有领先的收敛速度和渐近性能,适应性高。
本研究介绍了一种解决自主加入匝道问题的新方法,通过引入L3IS代理,能够在没有全面知识的情况下安全地执行匝道合流任务。该方法通过建模环境的隐含状态,增强了代理适应动态交通状况和与其他车辆的安全交互能力。通过模拟和性能比较证明了该方法的有效性。
我们提出了一种基于可识别的潜在环境状态(IDEA)的方法来检测分布转变发生的时间,并通过观察假设来解耦稳态和非稳态潜在状态的变化。IDEA 模型在各种基准数据集上优于最新的非稳态预测方法,突显了其在实际场景中的优势。
本文介绍了一种新的建模方法,用于学习个体特定强度的计数过程。作者设计了神经估计器和基于特征的估计器CoxSig,并提供了理论学习保证。模型在模拟和真实数据集上表现良好。
作者提出了Differentiable Tree Search (DTS)神经网络架构,通过嵌入最佳优先在线搜索算法,解决了模型精度不准确导致的性能问题。DTS通过可微的在线搜索和优化世界模型,减轻模型不准确性的影响。实验结果表明,DTS优于无模型和有模型的基准算法。
我们提出了一个深度生成时间序列的方法,用于建模和分析复杂疾病轨迹。通过结合生成方法与医学知识,我们展示了学习到的时间潜在过程可用于数据分析和临床假设测试。我们的方法能够进行个性化在线监测和多变量时间序列的预测,包括不确定性量化。我们在系统性硬化病过程中展示了我们方法的有效性,展示了我们机器学习模型捕捉复杂疾病轨迹和获取新医学知识的潜力。
本文提出了一种名为PartDiff的新方法,通过将图像扩散到中间潜在状态来生成新数据,并采用近似于低分辨率图像扩散的潜在状态来逼近中间潜在状态。实验证明,该方法可以显著减少去噪步骤的数量而不损失生成的质量。
仅仅依靠结果预测很少能够产生采取行动的最佳策略,需要结合对可行行动和潜在状态的了解,才能显著提高行动效用。
该论文提出了一种用于强化学习中学习动态全局模型的方法,通过学习本地动态的上下文潜向量和条件预测下一个状态来实现学习全局动态模型的任务。该方法在各种模拟机器人控制任务中表现出优异的泛化能力,超过了现有的强化学习方案。
本研究探索了神经网络训练算法与自然过程如蛋白质折叠和进化之间的相似性,并使用统计物理中的Fokker-Planck方法将它们在一个统一的框架下探索。研究了系统的稳态和熵产生率,并验证了涉及到这些数值的图谱存在扰动定理。提出了一种新的随机梯度Langevin动力学(SGLD)算法,可以应用于贝叶斯机器学习中从后验分布中获取网络权重。
完成下面两步后,将自动完成登录并继续当前操作。