82岁的肯·汤普森回忆了Unix操作系统的早期发展。他与同事们在贝尔实验室的开放环境中合作,创造了Unix和C语言,推动了技术进步,并分享了许多趣事,展现了那个时代的创新与友谊。
本研究针对联邦学习中高计算和通信需求对资源有限设备的挑战,提出了一种新颖的联邦鲁棒剪枝框架(FedRTS)。该方法通过基于汤普森采样的调整机制,利用稳定和前瞻性的信息作出决策,从而提高鲁棒性和性能。实验结果表明,FedRTS在计算机视觉和自然语言处理任务上表现出色,同时降低了通信成本,特别是在数据分布异构和部分客户端参与的场景中。
周三早上,UnitedHealthcare首席执行官布莱恩·汤普森在曼哈顿希尔顿酒店外遭枪杀,凶手骑Citi Bike逃往中央公园。汤普森原定参加投资会议,但因事件取消。警方表示凶手似乎专门针对汤普森,动机尚不明,汤普森的妻子曾收到威胁。
本研究提出了一种高效的高斯过程汤普森采样优化策略,通过一维全局根查找识别局部最优点,并利用可微分解耦表示优化后验样本,提升高维全局优化能力,增强贝叶斯优化表现。
我们提出了一种基于模型的强化学习算法,使用非线性常微分方程描述连续时间动力学。通过校准的概率模型捕捉不确定性,并采用乐观原则进行探索。分析强调了测量选择策略(MSS)在连续时间下的重要性,尤其是在决定何时观察系统时。使用高斯过程建模时,后悔界限为次线性。我们还提出了一种自适应的MSS,能够在更少样本下达到次线性后悔,展示了其在连续时间建模中的优势。
本研究提出了改进的Meta-TSLB算法,解决了高斯赌博机分析的局限性问题,展示了其适应未见实例的能力,具有重要的应用潜力。
本文研究了基于Thompson Sampling的有界奖励随机赌博算法,并提出了两种参数化的算法。通过导出更实用的界限,解决了现有问题。这两种算法都能实现较低的后悔界限。
在大型语言模型中,我们提出了一种新的方法,即具有无损加速的早期退出推理(EESD),通过在前 N 层后引入早期退出结构,利用语言模型的一部分生成初步令牌,并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制,利用汤普森采样调节生成过程,自动确定每一轮的初步令牌数量。实验结果表明,与先前的方法相比,我们的方法在解码令牌时具有明显的加速效果。
通过建立马尔可夫决策过程模型,研究了汤普森采样算法的渐近行为。提出了一种新的指标,期望剩余遗憾,用于测量当前时期后的最优奖励的遗憾。证明了汤普森采样算法的期望剩余遗憾上界收敛于0。给出了后验采样误差收敛于0的条件,并引入了期望剩余遗憾的概率版本。这个学习概念在更广泛的情况下非常有用。
本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法,能够在探索与利用之间取得平衡,在合成和实际数据集上始终优于现有算法。总时间复杂度为T和d的线性比例,其中T是总轮次数,d是特征数量,并实现了O(T)的遗憾,其中T是回合数。
改良的 Thompson 抽样方法(TS)在贝叶斯优化(BO)中解决了利用 - 探索困境问题,在通过随机生成和最大化高斯过程(GP)后验样本路径来优先进行探索的同时,引入了 epsilon-greedy 策略来管理其利用,该策略随机在两种极端之间切换,从而平衡了两者的需求,并通过实验证明了该方法的有效性。
本文对应用于凸体上的对数凸概率分布的Langevin Monte Carlo采样算法进行了理论分析,建立了收敛界限和算法复杂度证明,并进行了数值实验比较。
通过将四种常见的离线计数数据模型(泊松、负二项、零膨胀泊松和零膨胀负二项回归)与汤普森抽样(Thompson sampling)结合起来,本研究提出了一种新的算法来改善 mHealth 系统用户参与度,并在真实数据和模拟数据上取得了好的结果。
本研究提出了基于Thompson抽样的并行贝叶斯优化方法,称为STS-PBO,用于解决时间敏感的黑盒优化问题。该方法引入了速率失真理论构建平衡学习所需信息量和次优性的损失函数,并采用Blahut-Arimoto算法计算目标解。实验证明,STS-PBO方法在同步和异步设置中均优于串行方法和传统Thompson抽样的并行贝叶斯优化方法。
本文介绍了 Thompson sampling 方法(MP-TS)及其改进版本,证明其具有最优后悔上界。
完成下面两步后,将自动完成登录并继续当前操作。