本研究提出了一种高效的连续时间强化学习(CTRL)算法,解决了其在一般函数逼近环境下的理论不足。通过乐观的置信集,首次提供样本复杂性保证,证明该算法在连续控制任务中能显著减少策略更新和运行次数。
本研究提出了一种新方法(Q操控),通过操控Q函数提高学习代理在适应目标奖励函数时的效率,尤其在存在多个先验行为的情况下。实验证明,该方法显著提升了样本复杂性并优化了返回策略。
本研究提出了一种量子自然策略梯度(QNPG)算法,旨在解决无模型量子强化学习问题。该算法通过确定性梯度估计,显著提高了样本复杂性至$ ilde{ ext{O}}(oldsymbol{ ext{ε}}^{-1.5})$,优于经典下界$ ilde{ ext{O}}(oldsymbol{ ext{ε}}^{-2})$。
本研究提出了一种有效的协议,用于学习正温度玻色高斯态的哈密顿量,优化了样本和计算复杂性。结果表明,该方法在实验上可行,样本复杂性以对数级增长,推动了量子哈密顿量学习。
本文研究了量子纯度和量子内积估计的样本复杂性,提出了一种新协议,需 $O(median\\{1/\epsilon^2,2^{n/2}/\epsilon,2^{n-k}/\epsilon^2\\})$ 的量子态副本。研究表明,两种估计的样本下界相等,为量子计算的资源效率提供了重要见解。
本文探讨了动态系统模型构建中的样本复杂性与控制目标之间的权衡,提出了稳定线性时不变系统的样本数上限,并分析了物理输入约束对样本复杂性的影响。研究表明,现代机器学习和统计工具能够有效识别随机系统,并提出了新算法以避免状态空间维度的指数级增长。
本研究探讨了平滑提升算法的样本复杂性,提出了一种新学习框架,表明在光滑分布上可以实现弱学习,而在统一分布上样本需求显著增加。这一发现揭示了提升设置的分离,并为复杂性理论中的Impagliazzo硬核定理提供了新视角。
本文分析了神经网络近似的NAC算法,探讨了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上的作用。熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略。正则化导致了在正则化MDPs中的尖锐样本复杂度和网络宽度,这在策略优化中产生了有利的偏差-方差权衡。全局优化中实现演员神经网络的均匀逼近能力也是重要的。
我们提供了一种新颖且在样本使用效率上接近最优的算法,用于从样本中恢复权重并实现多项式样本复杂性和显著提高的时间复杂性,同时还扩展了关于最大线性回归的问题解决,提供了现有局部收敛方法的良好起点。
半监督学习算法可以改善有监督学习算法的样本复杂性,但对于二元高斯混合模型,没有任何半监督学习算法可以改进标记的最小最优统计误差率或无监督学习算法的性能。然而,在真实世界的数据上,实验证明半监督学习算法仍然可以优于无监督学习和有监督学习方法。
本研究使用卷积神经网络作为函数逼近器,研究了神经策略镜像下降算法的样本复杂性。通过观察高维度环境具有低维结构的经验现象,我们证明在每次迭代中,值函数和策略都可以很好地近似于卷积神经网络。因此,通过适当选择网络大小和超参数,NPMD 可以通过大约 O (ε^(-d/α-2)) 个样本找到一个 ε- 最优策略,从而解释深度策略算法的有效性。
该研究使用Kantorovich-Rubinstein距离描述分类问题中的样本复杂性,考虑底层度量空间的几何和拓扑结构。较大的距离表明存在1-Lipschitz分类器可以良好分类。同时,该研究讨论了描述符的局限性。
完成下面两步后,将自动完成登录并继续当前操作。