小红花·文摘 - 小红花技术领袖俱乐部

通过多臂老虎机优化DoorDash的A/B测试

通过多臂老虎机优化DoorDash的A/B测试

InfoQ ·

本研究提出了一种新的知识驱动贝叶斯赌博策略（KABB）框架，旨在解决多智能体系统中的静态知识假设和协调效率低下的问题。该框架通过三维知识距离模型和知识感知的汤普森采样策略，增强了智能体的协调能力，实现高性能与低计算需求的最佳成本性能平衡。

Knowledge-Aware Bayesian Bandit Strategy for Dynamic Expert Coordination in Multi-Agent Systems

BriefGPT - AI 论文速递 ·

本研究扩展了传统的多臂老虎机问题，提出了风险意识目标，并采用汤普森采样方法处理未知状态转移概率，从而显著降低风险暴露。研究结果表明，该方法在多集和多臂情况下的回报损失具有次线性和二次可扩展性。

Planning and Learning in Risk-Aware Restless Multi-Armed Bandit Problem

BriefGPT - AI 论文速递 ·

本研究提出了一种高效的高斯过程汤普森采样优化策略，旨在解决高斯过程在连续优化中的全局优化问题。通过一维全局根查找识别局部最优点，显著提升了贝叶斯优化的性能。

Gaussian Process Thompson Sampling via Rootfinding

BriefGPT - AI 论文速递 ·

该研究提出了一种基于并行和分布式的汤普森采样的贝叶斯优化方案，适用于高吞吐量筛选中的大规模问题。结果表明，该方法在大规模问题中表现优异，显著降低了计算资源和时间成本，具有广泛的应用潜力。

多反应器系统中基于过程约束的批次贝叶斯方法优化产量

BriefGPT - AI 论文速递 ·