小红花·文摘

为什么AI检索和排名需要超越向量搜索

The New Stack ·

本研究提出了一种基于深度强化学习的信号交叉口自动驾驶车辆纵向控制策略，旨在解决复杂决策问题。通过设计全面的奖励函数并结合不同的DRL算法，该策略在多种安全关键场景中提高了车辆的效率与安全性。

Deep Reinforcement Learning-Based Longitudinal Control Strategy for Automated Vehicles at Signalized Intersections

BriefGPT - AI 论文速递 ·

本研究解决了霍华德政策迭代算法在确定性马尔可夫决策问题中的运行时间仍为指数级这一问题。论文提出了一种新的方法，证明在带有固定位数奖励的情况下，霍华德政策迭代的运行时间可达到亚指数界限。其主要发现表明，该算法的性能显著提升，并拓展了其应用范围。

霍华德的政策迭代在具有固定位数奖励和任意折扣因子的确定性马尔可夫决策问题中的亚指数性

BriefGPT - AI 论文速递 ·

本研究提出了一种基于分层强化学习的双向任务-动作规划方法，旨在解决群体机器人在动态环境中的决策问题。实验结果显示，该方法在对抗中的胜率超过80%，决策时间低于0.01秒，展现出良好的应用潜力。

Application of Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning in Strategic Confrontation

BriefGPT - AI 论文速递 ·

本研究提出观察约束马尔可夫决策过程（OCMDP），旨在解决高成本观察环境中的决策问题。通过无模型深度强化学习算法，分离观察与控制组件，有效降低观察成本。实验结果表明，该模型在模拟诊断和实际医疗中显著提高了效率。

Observation-Constrained Markov Decision Process

BriefGPT - AI 论文速递 ·

本文探讨了量子计算在强化学习中的应用，提出了量子自然策略梯度和量子优势演员-评论家算法等多种量子算法，显示出在解决复杂决策问题上的潜力。研究表明，量子方法在性能和参数效率上优于传统算法，推动了量子强化学习的发展。

量子井字游戏的强化学习

BriefGPT - AI 论文速递 ·

本文介绍了多智能体强化学习的最新研究进展，包括分层生成模型、条件生成模型和多模态基础世界模型等新方法。这些方法在复杂环境中表现出色，提升了样本效率和决策能力，推动了生成人工智能的应用与发展。

通过生成世界模型解决多智能体决策问题的基础答案

BriefGPT - AI 论文速递 ·

本研究针对决策问题中的公平性提出了一种新的时间视角，强调考虑过去决策的公平性。文章引入时间公平性概念，并提出三种在优化问题中结合时间公平性的方案。实验证明，所提方法在四个不同领域的表现优于不考虑时间公平性的基线方法，具有重要的潜在影响。

决策问题中的时间公平性

BriefGPT - AI 论文速递 ·

本文探讨了深度强化学习在自动驾驶中的应用，重点解决安全性和决策问题。研究提出了多种算法和系统，包括基于Q-learning和NEAT的比较、基于风险预测的驾驶策略，以及结合变分推断与归一化流的安全通用端到端自动驾驶系统。实验结果表明，这些方法在复杂场景中显著提升了安全性能和驾驶效率。

一种安全高效的自我演化算法用于自主驾驶系统的决策与控制

BriefGPT - AI 论文速递 ·

本文研究了不完全信息游戏中的决策问题，提出通过选择使用玩家个人信息来提升游戏性能，并引入新的信念分布。实验证明该方法在多个算法上显著提高了游戏表现。此外，探讨了不完全记忆下的最优决策及其计算复杂性，扩展了完全信息博弈的框架，提出了有效的求解策略。

完全信息蒙特卡罗与推迟推理

BriefGPT - AI 论文速递 ·

本文介绍了与一阶逻辑（FOL）和本体推理相关的工具和方法，包括 Gavel、Shape Expressions Language 2.0、FOLIO 数据集和 LogicLLaMA 算法。这些研究旨在提高自然语言推理的有效性和准确性，并探讨自然语言与逻辑规则之间的转换。

SHACL2FOL：SHACL 决策问题的 FOL 工具匠

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的神经程序模型，能够在多个步骤中调用基本算术和逻辑运算，生成复杂程序。该模型通过弱监督信号训练，取得了高准确度，并展示了在多个领域的有效性和高效性。

神经程序的高效学习

BriefGPT - AI 论文速递 ·

本文研究了深度神经网络中的不确定性因素及其对决策的影响，提出了一种定量分析不确定性的学习框架。研究表明，矛盾和真空是影响分类和事件检测的关键因素。此外，提出了改进的SSL算法框架以应对OOD对象的影响，并探讨了适应数据分布漂移的连续学习方法，以提高神经网络的可靠性和鲁棒性。

神经动态数据估值

BriefGPT - AI 论文速递 ·

我们提出了一种名为 LOOP 的新算法框架，它结合了基于模型和基于值的方法，用于研究无限时域平均奖励马尔可夫决策过程（AMDPs）。此外，我们提出了一个新的复杂度度量并证明了框架在几乎所有 AMDPs 中的有效性。

高效学习具有普适函数逼近的无限视野平均奖励马尔可夫决策问题

BriefGPT - AI 论文速递 ·

本文探讨了深度强化学习和图神经网络在自动驾驶中的应用，提出多种模型以解决复杂交通场景下的决策问题。这些方法在避免事故、提高合流效率和优化驾驶策略方面表现优异，显著提升了自动驾驶车辆的安全性和性能。

使用潜在状态推断的强化学习在观测时延下的自主匝道合并

BriefGPT - AI 论文速递 ·

本文探讨如何估计事件之间的因果关系概率，提出了因果概率的严格边界，可用于解决归因和决策问题。

合并数据集收紧因果概率界限

BriefGPT - AI 论文速递 ·

本文提出了一种基于半监督学习的伪标记方法，取得了与现有最先进方法相媲美甚至更好的结果，并能抵御未知分布样本。在CIFAR-10数据集上，使用了4,000个标记样本，达到了94.91%的准确率，在Imagenet-ILSVRC数据集上，使用了10%的标记样本，达到了68.87%的top-1准确率。

伪标签选择是一个决策问题

BriefGPT - AI 论文速递 ·

本文探讨如何利用结构-语义定义的必需或充分因果关系的概率，从实验和观察数据中获得这些数量的最佳约束，并从理论上得出了关于因果概率的严格边界。这些结果确定了如何在解决归因问题和决策相关问题中利用实证数据。

免疫概率研究

BriefGPT - AI 论文速递 ·

一石二鸟：解决晚餐争论与S&OP决策问题

Gartner Blog Network ·

文章讨论了语言的字问题及其复杂性。字问题是判断一个单词是否属于某个语言。可判定语言的特征函数可计算，而半可判定语言只能确认单词是否在语言中。不同类型语言的字问题复杂性从线性时间到指数时间不等，文章还提到语言描述的不同形式及其相互转换。

字问题（决策问题）、复杂性与计算模型

shrik3 ·