小红花·文摘

私有KL分布估计的实例最优性

Apple Machine Learning Research ·

清华大学段然团队突破Dijkstra算法速度限制，提出新算法解决“排序障碍”，实现更快的最短路径计算，标志着算法研究的重要里程碑。

本科必学Dijkstra算法被超越！清华段然团队打破图灵奖得主证明的普遍最优性

量子位 ·

本研究提出了一种引导策略优化（GPO）框架，旨在解决部分可观察环境中强化学习的不确定性问题。该方法通过引导者与学习者的共同训练，理论上达到了与直接强化学习相当的最优性，并在多项任务中显著优于现有方法。

Guided Policy Optimization under Partial Observability

BriefGPT - AI 论文速递 ·

本研究针对进化算法中普遍认为的停滞问题进行了深入探讨，指出停滞并不必然妨碍收敛，同时收敛也不一定表示最优。研究首次揭示，个体的停滞可以促进整个种群的收敛，且收敛不足以保障进化算法的有效性。这些发现对进化算法的理解与应用具有重要影响。

进化算法中的停滞：收敛不等于最优性

BriefGPT - AI 论文速递 ·

本研究解决了推理时间计算对语言模型性能扩展的影响，特别是最佳之N采样可能导致的性能下降问题。通过引入新的算法“推理时间悲观主义”，该研究展示了如何在不确定性面前通过拒绝采样来减轻奖励劫持的影响，从而实现理想的性能扩展。实验结果表明，该算法在多种任务和模型中具有显著的优势。

最佳之N是它们中最好的选择吗？推理时间对齐中的覆盖、扩展和最优性

BriefGPT - AI 论文速递 ·

本文解决了学习增强的一次性最大搜索中现有方法缺乏平滑性或未能实现最佳最坏情况保证的问题。提出的算法首次同时满足一致性和鲁棒性的最佳权衡，且利用获得的平滑性对包含随机性的学习增强环境中的一次性最大搜索进行了分析。该研究的主要发现为算法在不确定环境下的有效性提供了新的保证。

重尾下的差分隐私随机凸优化：基于简单约简的近最优性

Apple Machine Learning Research ·

Dijkstra算法经过近70年的发展，已被证明具备普遍最优性，并能在最坏情况下实现最佳性能。多所顶尖高校的合作研究提升了该算法的效率，广泛应用于地图和网络路由等领域。

本科经典算法Dijkstra，被证明是普遍最优了：最坏情况性能也最优！

量子位 ·

对数据驱动的新闻供应商问题应用样本平均逼近（SAA）的后悔性能进行研究，通过分析 SAA 后悔的界限，证明了其性能受到 α 而不是 β 的长期影响，同时提出了新的梯度逼近技术和具有独立利益的难题实例。

闭合差距：基于样本均值近似的数据驱动新闻供应商问题的最优性

BriefGPT - AI 论文速递 ·

本研究探讨了强化学习中Actor-Critic算法的全局收敛性和最优性，证明了在使用神经网络时，算法以亚线性速率收敛于全局最优策略，并分析了共享神经结构和随机初始化对收敛性的影响，为神经策略梯度方法的优化提供了理论支持。

在线神经演员 - 评论家算法的弱收敛分析

BriefGPT - AI 论文速递 ·

本文提出了一种新的Mean Actor-Critic（MAC）算法，旨在优化离散动作连续状态的强化学习。该算法通过显式表示所有动作值来减少策略梯度估计的方差，并在多个控制领域和Atari游戏中表现出竞争力。此外，研究探讨了Actor-Critic算法的全局收敛性和最优性，提出了改进的性能界限，并在交通信号控制等应用中展示了其实用性。

通过多层级演员 - 评论家算法在平均奖励强化学习中实现全局最优性无需混合时间预言机

BriefGPT - AI 论文速递 ·

人流移动模拟是模拟人员移动的技术，可应用于游戏、城市规划、建筑设计和交通组织等领域。清华大学研究人员提出了一种新的条件去噪扩散模型，通过社会力引导的扩散过程来模拟人群行为。该模型集成了等变性的强归纳偏差，并开发了适用于扩散模型的长程训练算法。实验证明该模型相对于基线方法有显著性能提升。

仅需 5% 训练样本达到最优性能，清华大学研究团队发布条件去噪扩散模型 SPDiff，实现长程人流移动模拟

HyperAI超神经 ·

本文研究了在对抗性和随机的 K 臂赌博机中，随机扰动策略（Follow-the-Perturbed-Leader）的最优性。我们建立了对于扰动实现 O (√KT) 遗憾的充分条件，并展示了随机扰动策略在具有特定尾部分布的情况下实现的最佳两者能力。

带有弗雷歇特 - 类型尾部分布的跟随扰动领导者：对抗性赌博机中的最优性和最佳选择之间的折衷

BriefGPT - AI 论文速递 ·

本文探讨了通过对角线和全方差提升DPM模型表现力的方法，提出了最优协方差估计及其校正，实验结果表明该方法在样本质量和效率上优于传统设计。此外，介绍了新型去噪扩散概率模型及其在无线通信中的应用，有效解决了硬件损伤和信道失真问题，显著提高了重建性能。

扩散概率模型的渐进均方误差最优性

BriefGPT - AI 论文速递 ·

本研究探讨了多头softmax注意力模型在上下文学习多任务线性回归中的渐变流动动力学，并发现了有趣的“任务分配”现象。研究证明了梯度流在优化上的最佳性，为多头softmax注意力模型提供了第一个收敛结果。

多头 Softmax 注意力的上下文学习训练动态：出现、收敛和最优性

BriefGPT - AI 论文速递 ·

本论文提出了一种验证自动驾驶系统安全特性的实用方法，通过建立代理模型描述交通场景下的行为，并评估多个模拟交通场景的安全特性。

存在一种函数或度量，可以最小化给定的凸泛函或风险，并满足一种由可靠的变换组指定的对称性质。通过利用 Stein 和 Le Cam 的旧思想以及出现在可靠的定理中的近似群平均，我们得出了结果。在凸分析中被称为 orbitopes 的一类凸集变得至关重要，并且我们在非参数设定中建立了这些 orbitopes 的属性。我们还展示了一个称为 cocycle 的简单装置，可用于将不同形式的对称性化简为一个问题。作为应用，我们在对称性约束下获得了关于不变核均值嵌入和 Monge-Kantorovich 定理的结果。我们还解释了与关于不变测试的 Hunt-Stein 定理的关联。

私有KL分布估计的实例最优性

本科必学Dijkstra算法被超越！清华段然团队打破图灵奖得主证明的普遍最优性

Guided Policy Optimization under Partial Observability

进化算法中的停滞：收敛不等于最优性

最佳之N是它们中最好的选择吗？推理时间对齐中的覆盖、扩展和最优性

学习增强的一次性最大搜索中的帕累托最优性、平滑性和随机性

重尾下的差分隐私随机凸优化：基于简单约简的近最优性

本科经典算法Dijkstra，被证明是普遍最优了：最坏情况性能也最优！

闭合差距：基于样本均值近似的数据驱动新闻供应商问题的最优性

在线神经演员 - 评论家算法的弱收敛分析

通过多层级演员 - 评论家算法在平均奖励强化学习中实现全局最优性无需混合时间预言机

仅需 5% 训练样本达到最优性能，清华大学研究团队发布条件去噪扩散模型 SPDiff，实现长程人流移动模拟

带有弗雷歇特 - 类型尾部分布的跟随扰动领导者：对抗性赌博机中的最优性和最佳选择之间的折衷

扩散概率模型的渐进均方误差最优性

多头 Softmax 注意力的上下文学习训练动态：出现、收敛和最优性

通过形态测试评估自动驾驶的决策最优性

可接受的对称约束下的全局最优性

Unichain 和非周期性对于渐近最优性的平均奖励厌恶赌博机是充分条件

Sobolev 空间中核分类器的最优性

均值估计的最优性：超越最糟情况、超越子高斯、超越 $1+α$ 矩