小红花·文摘

本文研究了多臂老虎机问题的性质与限制，分析了不同算法在减少后悔方面的表现，提出了一种基于隐式探索的损失估计策略和渐近最优算法，以优化探索与利用的平衡，尤其是在具有线性约束的情况下。通过数值实验验证了新算法的有效性。

在未知线性约束下，使用拉格朗日方法进行探索性学习

BriefGPT - AI 论文速递 ·

Lady Deirdre是一个用Rust编写的新语言框架，支持LSP。Let's Encrypt开始部署ntpd-rs来替换原有的ntpd服务。有人用Rust实现了一个迷题解决机，通过玩游戏掌握Rust。Agent panel是一个用Rust实现的LLM Agent工具。有人用Rust重构算法交易平台后感到后悔。

【Rust日报】2024-06-27 这人花了18个月用Rust重构算法交易平台，然后现在充满了后悔

Rust.cc ·

本文探讨了大型语言模型（LLMs）在协商和决策中的能力，提出了新的评估框架和在线学习方法。研究表明，GPT-4在GAMA-Bench上表现最佳，而GPT-3.5通过改进方法可提升性能。此外，文章还讨论了多智能体系统中的低后悔率学习算法及其在通信网络设计中的应用。

网络学习和游戏中 LLM 代理的后悔案例研究

BriefGPT - AI 论文速递 ·

本文探讨了Thompson Sampling（TS）算法在多臂赌博问题中的应用，提出了新的悔恨分析方法，并证明了其在不同场景下的界限。研究还介绍了基于TS的并行贝叶斯优化方法，显示其在时间敏感的优化问题中优于传统方法。通过计算机模拟验证了改进版本的有效性，强调了TS在强化学习和贝叶斯优化中的潜力。

最小化 Thompson 采样后悔率对标准差比率 (TS-RSR)：一种可证明高效的批量贝叶斯优化算法

BriefGPT - AI 论文速递 ·

通过von Neumann最小极大定理研究在线凸优化游戏的最优策略遗憾，证明了遗憾与经验最小化算法的行为密切相关，具有几何解释，可视为Jensen不等式中的差距。给出了在线学习问题的最优策略上下界限制，提供了无需构建学习算法的上界和对抗者的明确最优策略的下界。

优化最小后悔度的无监督环境设计

BriefGPT - AI 论文速递 ·

本文介绍了一种在线牛顿步骤算法，适用于广泛实际损失函数。研究了二阶赌博算法在具有仿射结构的损失函数中的应用。解决了赌博LQR/LQG问题。证明了BCO与内存问题更难，给出了遗憾界的下界。

带有延迟反馈的强化学习优化中的改进后悔度

BriefGPT - AI 论文速递 ·

本文提出了交互估计的抽象框架，通过学习者查询的点与目标的类似性来估计目标。介绍了不相似维度的组合度量，提出了简单通用的算法，并解决了后悔和PAC泛化边界的求解问题。展示了框架涵盖了统计查询学习和结构化强化学习两个经典模型，并改进了分析。

深度学习模型的双尺度复杂度度量

BriefGPT - AI 论文速递 ·

该文介绍了一种新颖的约简方法，适用于使用专家建议的学习问题，提供了存在相关均衡的充分条件，回答了关于均衡计算和游戏学习的几个未解决问题。

快速交换后悔值最小化及其在近似相关均衡中的应用

BriefGPT - AI 论文速递 ·

本文研究了多智能体多臂赌博机方法中的遗憾下界，证明了它们的紧密性。当图表现出良好的连通性和奖励是随机分布时，证明了实例相关上界的 O（log T）下界和平均差值独立上界的 sqrt（T）下界。在对抗奖励的假设下，建立了连接图的 O（T^（2/3））下界。当图表现为不连通时，还展示了线性的遗憾下界。

线性赌臂机器人的纳什后悔保证

BriefGPT - AI 论文速递 ·

当下与永恒

Power's Wiki ·

承诺不承诺

Jason Fried ·