本研究提出了一种基于深度强化学习的信号交叉口自动驾驶车辆纵向控制策略,旨在解决复杂决策问题。通过设计全面的奖励函数并结合不同的DRL算法,该策略在多种安全关键场景中提高了车辆的效率与安全性。
本研究解决了霍华德政策迭代算法在确定性马尔可夫决策问题中的运行时间仍为指数级这一问题。论文提出了一种新的方法,证明在带有固定位数奖励的情况下,霍华德政策迭代的运行时间可达到亚指数界限。其主要发现表明,该算法的性能显著提升,并拓展了其应用范围。
本研究提出了一种基于分层强化学习的双向任务-动作规划方法,旨在解决群体机器人在动态环境中的决策问题。实验结果显示,该方法在对抗中的胜率超过80%,决策时间低于0.01秒,展现出良好的应用潜力。
本研究提出观察约束马尔可夫决策过程(OCMDP),旨在解决高成本观察环境中的决策问题。通过无模型深度强化学习算法,分离观察与控制组件,有效降低观察成本。实验结果表明,该模型在模拟诊断和实际医疗中显著提高了效率。
本文探讨了量子计算在强化学习中的应用,提出了量子自然策略梯度和量子优势演员-评论家算法等多种量子算法,显示出在解决复杂决策问题上的潜力。研究表明,量子方法在性能和参数效率上优于传统算法,推动了量子强化学习的发展。
深度生成人工智能通过最大似然估计训练生成模型,但难以完全满足用户需求。增强学习作为替代方案,通过注入新信号训练模型,更灵活且能遵循人类偏好,拓展了生成人工智能的边界。本文综述了该领域的应用,特别关注大规模语言模型的发展和未来方向。
本研究针对决策问题中的公平性提出了一种新的时间视角,强调考虑过去决策的公平性。文章引入时间公平性概念,并提出三种在优化问题中结合时间公平性的方案。实验证明,所提方法在四个不同领域的表现优于不考虑时间公平性的基线方法,具有重要的潜在影响。
SHACL2FOL是一款自动工具,能将SHACL文档转换为FOL句子,并计算满足性和包含性这两个静态分析问题的答案。它可以提供SHACL语义的自动一阶逻辑解释,同时为SHACL约束的创建和管理提供静态分析功能。这个工具有助于SHACL的进一步理论研究和实践应用。
我们提出了一种名为 LOOP 的新算法框架,它结合了基于模型和基于值的方法,用于研究无限时域平均奖励马尔可夫决策过程(AMDPs)。此外,我们提出了一个新的复杂度度量并证明了框架在几乎所有 AMDPs 中的有效性。
本文探讨如何估计事件之间的因果关系概率,提出了因果概率的严格边界,可用于解决归因和决策问题。
本文提出了一种基于半监督学习的伪标记方法,取得了与现有最先进方法相媲美甚至更好的结果,并能抵御未知分布样本。在CIFAR-10数据集上,使用了4,000个标记样本,达到了94.91%的准确率,在Imagenet-ILSVRC数据集上,使用了10%的标记样本,达到了68.87%的top-1准确率。
本文探讨如何利用结构-语义定义的必需或充分因果关系的概率,从实验和观察数据中获得这些数量的最佳约束,并从理论上得出了关于因果概率的严格边界。这些结果确定了如何在解决归因问题和决策相关问题中利用实证数据。
夫妻每周争吵3次晚餐,企业决策也存在类似问题。应用家庭晚餐解决方案,指定决策者、明确问题定义、提供建议等可提高S&OP决策效率。
文章讨论了语言的字问题及其复杂性。字问题是判断一个单词是否属于某个语言。可判定语言的特征函数可计算,而半可判定语言只能确认单词是否在语言中。不同类型语言的字问题复杂性从线性时间到指数时间不等,文章还提到语言描述的不同形式及其相互转换。
完成下面两步后,将自动完成登录并继续当前操作。