本研究提出了一种新方法,通过控制连续决策的时间尺度和扩展动作,解决了连续时间系统模型中的高计算成本问题,显著提升了规划和模型基础强化学习的效率与效果。
本研究针对双时间尺度随机逼近算法中的有限时间误差率问题,提出了一种非渐近中心极限定理。该论文的创新之处在于利用Wasserstein-1距离,证明了Polyak-Ruppert平均的期望误差以$1/\sqrt{n}$的速率衰减,显著改善了之前研究的收敛速率。此成果为机器学习中的应用提供了重要的理论支撑。
文章讨论了如何有效利用时间和提高工作效率,强调制定计划和设定优先级的重要性,以便更好地完成任务。
该研究解决了Q学习在长远奖励环境中偏差与方差难以调和的问题。通过引入Q($\Delta$)-学习,作为TD($\Delta$)在Q学习框架中的扩展,通过将Q($\Delta$)-函数分解为不同的折扣因子,实现了在多个时间尺度上的高效学习。实证分析表明,Q($\Delta$)-学习在标准基准测试中优于传统Q学习和TD学习方法,具有更好的学习稳定性和收敛速度。
在第20届CCF HPC China 2024年会上,万萌介绍了深度学习在光伏发电和电力负荷预测中的应用,提出了多种新能源预测模型,提升了预测精度。
本研究解决了多序列随机逼近(MSSA)的理论局限,提出了无需固定点光滑性假设的单时间尺度分析。结果表明,若所有算子强单调,MSSA的收敛速度为$ ilde{ ext{O}}(K^{-1})$;若主算子非单调,速度为$ ext{O}(K^{-rac{1}{2}})$。这一发现简化了双层优化和通信高效分布式学习的算法及性能保证。
本文介绍了基于时空感受野的神经形态系统的计算模型,通过仿射高斯核和漏积分器处理时空信号。研究表明,该模型提高了脉冲网络在事件驱动视觉任务中的训练效果,对信号处理和事件驱动视觉具有直接相关性,可扩展到其他空间和时间处理任务。
本研究探讨了语言处理的时间动态,通过研究预训练基于变压器的语言模型和脑电数据之间的单词表示的对准。使用时间响应函数 (TRF) 模型,我们调查了神经活动如何对应于不同层的模型表示,揭示了人工语言模型和大脑在语言理解过程中的相互作用的见解。我们的分析揭示了不同层中 TRF 的模式,突显了对词汇和构成处理的不同贡献。此外,我们使用线性判别分析 (LDA) 来分离词性 (POS)...
本研究探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,并提出了一种新的框架。该框架通过更新动量项和变量分配不同的时间尺度,证明了在单一和双时间尺度情况下的全局收敛性。实验证明了该框架的高效性。
该论文研究了一种分布式强化学习方法,用于实现多智能体马尔可夫决策过程中的网络目标。通过稀疏通信网络上的局部处理和信息交流,实现了代理协作。该分布式方案在几乎确定的情况下,逐渐实现了各个网络层面上的期望值函数和最优静止控制策略。
通过中心极限定理对双时间尺度随机逼近(TTSA)在受控马尔可夫噪声下进行了深入的渐近分析,揭示了受底层马尔可夫链影响的 TTSA 的耦合动态,从而扩展了其应用范围,并结合应用结果推断了使用马尔可夫样本的 GTD 算法的统计性质和渐近性能。
本文研究了线性二时间尺度随机逼近算法的收敛性分析,使用马尔可夫噪声得出了不同步长选择下的收敛行为。将结果应用于TDC算法,得到了比之前工作更好的收敛性样本复杂度。此结果还适用于确定各种强化学习算法的收敛行为,如带有Polyak平均的TD学习,GTD和GTD2。
在那个人们普遍认为“自动驾驶汽车还有半年就能面市”的美好时光里,你可能遇到过这样的论点:“如果自动驾驶汽车能够运行,那么它们将比人驾驶的汽车更安全。”这听起来没错。但如果你所说的“它们能够运行”是指它们在包括安全性在内的多方面都优于人类驾驶的汽车,那么,果然,如果它们能运行,它们就会比人类驾驶的汽车更安全。这其实是一种逻辑上的循环论证。不幸的是,技术界充满了这类诡辩,尤其是在 AI 领域。
提出了一种基于深度神经网络的时间序列分类新基准线,包括全卷积网络(FCN)和深层ResNet结构,通过全局平均池化和类激活映射(CAM)实现了优异性能,为未来研究提供了良好起点。
完成下面两步后,将自动完成登录并继续当前操作。