小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种高效的连续时间强化学习(CTRL)算法,解决了其在一般函数逼近环境下的理论不足。通过乐观的置信集,首次提供样本复杂性保证,证明该算法在连续控制任务中能显著减少策略更新和运行次数。

Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种新方法(Q操控),通过操控Q函数提高学习代理在适应目标奖励函数时的效率,尤其在存在多个先验行为的情况下。实验证明,该方法显著提升了样本复杂性并优化了返回策略。

通过Q操控进行奖励适应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究提出了一种量子自然策略梯度(QNPG)算法,旨在解决无模型量子强化学习问题。该算法通过确定性梯度估计,显著提高了样本复杂性至$ ilde{ ext{O}}(oldsymbol{ ext{ε}}^{-1.5})$,优于经典下界$ ilde{ ext{O}}(oldsymbol{ ext{ε}}^{-2})$。

Accelerating Quantum Reinforcement Learning Based on Quantum Natural Policy Gradient Method

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-27T00:00:00Z

本研究提出了一种有效的协议,用于学习正温度玻色高斯态的哈密顿量,优化了样本和计算复杂性。结果表明,该方法在实验上可行,样本复杂性以对数级增长,推动了量子哈密顿量学习。

Effective Hamiltonian, Structure, and Trace Distance Learning of Gaussian States

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本文研究了量子纯度和量子内积估计的样本复杂性,提出了一种新协议,需 $O(median\\{1/\epsilon^2,2^{n/2}/\epsilon,2^{n-k}/\epsilon^2\\})$ 的量子态副本。研究表明,两种估计的样本下界相等,为量子计算的资源效率提供了重要见解。

A Study on the Sample Complexity of Quantum Purity Estimation and Quantum Inner Product Estimation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本文探讨了动态系统模型构建中的样本复杂性与控制目标之间的权衡,提出了稳定线性时不变系统的样本数上限,并分析了物理输入约束对样本复杂性的影响。研究表明,现代机器学习和统计工具能够有效识别随机系统,并提出了新算法以避免状态空间维度的指数级增长。

学习不稳定的连续时间随机线性控制系统

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本研究探讨了平滑提升算法的样本复杂性,提出了一种新学习框架,表明在光滑分布上可以实现弱学习,而在统一分布上样本需求显著增加。这一发现揭示了提升设置的分离,并为复杂性理论中的Impagliazzo硬核定理提供了新视角。

The Sample Complexity of Smooth Boosting and the Tightness of the Hardcore Theorem

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本研究提出了一种基于泊松时钟模型的强化学习算法,克服了离散时间和状态的局限性,实现了连续时间下的学习和规划任务。研究探讨了线性贝尔曼完备性下的值迭代算法,提供了多项式时间复杂度的解决方案,并分析了样本复杂性和策略评估的有效性。

关于连续时间策略评估的贝尔曼方程 I:离散化与逼近

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

本文提出了一种高效的自适应数据驱动离散化的 $Q$-学习算法,适用于大型状态-动作空间的无模型强化学习。该算法通过自适应离散化平衡探索与开发,具备良好的性能保证和复杂度。此外,研究探讨了在线强化学习问题,提出了乐观估计算法,并在连续马尔可夫决策过程中实现了速率最优的样本复杂性。

基于自适应离散化的度量空间非周期性强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z

本文研究了Transformer模型在上下文学习中的应用,分析了样本复杂性、预训练任务多样性和上下文长度对上下文学习成功的影响。结果表明,随着预训练示例数量的增加,模型在低多样性下倾向于记忆训练任务,而在高多样性下能够实现真正的上下文学习。此外,提出了一种机制,使Transformer能够有效进行线性回归预测,并探讨了模型的贝叶斯最优性质及其在任务转移中的表现。

学习正确的潜在变量是否必然改善上下文中的学习?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z

本文探讨了多臂赌博机问题的样本复杂性,提出了新算法和复杂度度量,研究了不同情况下的遗憾最小化策略,并展示了算法在信息检索和在线学习中的优越性。

改进的多臂赌博机问题的近乎紧密逼近保证

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-01T00:00:00Z

我们提供了一种新颖且在样本使用效率上接近最优的算法,用于从样本中恢复权重并实现多项式样本复杂性和显著提高的时间复杂性,同时还扩展了关于最大线性回归的问题解决,提供了现有局部收敛方法的良好起点。

有效样本下降的线性回归

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-22T00:00:00Z

半监督学习算法可以改善有监督学习算法的样本复杂性,但对于二元高斯混合模型,没有任何半监督学习算法可以改进标记的最小最优统计误差率或无监督学习算法的性能。然而,在真实世界的数据上,实验证明半监督学习算法仍然可以优于无监督学习和有监督学习方法。

半监督学习能否有效利用全部数据?从下界的角度看

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-30T00:00:00Z

本研究使用卷积神经网络作为函数逼近器,研究了神经策略镜像下降算法的样本复杂性。通过观察高维度环境具有低维结构的经验现象,我们证明在每次迭代中,值函数和策略都可以很好地近似于卷积神经网络。因此,通过适当选择网络大小和超参数,NPMD 可以通过大约 O (ε^(-d/α-2)) 个样本找到一个 ε- 最优策略,从而解释深度策略算法的有效性。

神经策略镜面下降在低维流形上的策略优化的样本复杂度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-25T00:00:00Z

该研究使用Kantorovich-Rubinstein距离描述分类问题中的样本复杂性,考虑底层度量空间的几何和拓扑结构。较大的距离表明存在1-Lipschitz分类器可以良好分类。同时,该研究讨论了描述符的局限性。

关于使用坎托罗维奇 - 鲁宾斯坦距离进行降维的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码