小红花·文摘

[写作] Bandit Wargame 清理日志（第10 - 20级）

DEV Community ·

本研究提出了BanditSpec框架，解决了推测解码中前缀令牌配置固定的问题。通过将超参数选择视为多臂强盗问题，设计了两种算法，实验结果表明其在文本生成中优于现有方法，提高了语言模型的推理效率。

BanditSpec: Achieving Adaptive Speculative Decoding through Bandit Algorithms

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）在复杂决策任务中是否能够模拟人类在不确定动态决策中的探索与利用行为。

Comparing Exploration-Exploitation Strategies of Large Language Models and Humans: Insights from Standard Multi-Armed Bandit Tasks

BriefGPT - AI 论文速递 ·

本文提出了一种适应性预算多臂老虎机算法，旨在解决物联网设备在动态资源约束下的实时响应问题。该算法通过衰减预算违反来增强遵从性，并结合预算上置信界（UCB）算法优化性能与适应性，展现出比传统方法更快的适应能力和更好的约束满足，具有构建自适应物联网系统的潜力。

Application of Adaptive Budgeted Multi-Armed Bandit Algorithm in IoT under Dynamic Resource Constraints

BriefGPT - AI 论文速递 ·

🐍 使用Bandit在几分钟内保护您的Python代码（实用指南）

DEV Community ·

本研究探讨了有限资源下的多代理竞争性多臂老虎机博弈，提出了一种结合信息与旁支支付的机制（CISP），有效解决资源争用问题，确保社会最优的臂推荐，降低效率损失。

Competitive Multi-Armed Bandit Games in Resource Sharing

BriefGPT - AI 论文速递 ·

本研究提出了一种新的知识驱动贝叶斯赌博策略（KABB）框架，旨在解决多智能体系统中的静态知识假设和协调效率低下的问题。该框架通过三维知识距离模型和知识感知的汤普森采样策略，增强了智能体的协调能力，实现高性能与低计算需求的最佳成本性能平衡。

Knowledge-Aware Bayesian Bandit Strategy for Dynamic Expert Coordination in Multi-Agent Systems

BriefGPT - AI 论文速递 ·

掌握OverTheWire Bandit游戏的详细指南

DEV Community ·

本研究提出了一种改进的广告预算分配算法，旨在解决数字广告预算分配的实用性问题。通过模拟环境验证多渠道广告的复杂性，并采用动态适应市场变化的策略，显著提升了预算分配效率。

Adaptive Budget Optimization for Multi-Channel Advertising Using a Combination of Bandit Algorithms

BriefGPT - AI 论文速递 ·

本研究扩展了传统的多臂老虎机问题，提出了风险意识目标，并采用汤普森采样方法处理未知状态转移概率，从而显著降低风险暴露。研究结果表明，该方法在多集和多臂情况下的回报损失具有次线性和二次可扩展性。

Planning and Learning in Risk-Aware Restless Multi-Armed Bandit Problem

BriefGPT - AI 论文速递 ·

本研究提出了一种基于多臂赌博机算法的动态学习率方法（LRRL），旨在优化深度强化学习中的学习率选择。该方法根据代理的训练表现动态调整学习率，显著提升了深度强化学习算法的性能，尤其在非平稳目标函数下表现突出。

Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach

BriefGPT - AI 论文速递 ·

本文探讨了在线强化学习在马尔可夫决策过程中的应用，提出了多种算法以提高后悔性能，包括基于线性优化的算法和利用人类反馈的强化学习方法。这些算法在不同环境下实现了高效的样本利用和计算复杂度优化，改进了现有的最佳结果，并为动态遗憾分析提供了理论支持。

Near-Optimal Regret with Cumulative Bandit Feedback in Linear MDPs

BriefGPT - AI 论文速递 ·

该研究提出了一种基于双重乐观学习的算法来解决在线任务调度中的不确定性问题。该算法通过利用乐观估计奖励与成本比例和隐式学习任务到达分布，在不同不确定性环境下实现了有效的调度，并取得了比其他方法更好的累积奖励与成本比。

学习使用 Bandit 反馈调度在线任务

BriefGPT - AI 论文速递 ·

The algorithms are implemented for Bernoulli bandit in lilianweng/multi-armed-bandit. Exploitation vs Exploration The exploration vs exploitation dilemma exists in many aspects of our life. Say,...

The Multi-Armed Bandit Problem and Its Solutions

Lil'Log ·

注:本文首发于《程序员》杂志 0.导语推荐系统里面有两个经典问题：EE问题和冷启动问题。前者涉及到平衡准确和多样，后者涉及到产品算法运营等一系

Bandit算法与推荐系统

统计之都 ·