小红花·文摘

本文介绍了一种基于神经网络的预训练模型PreFeRMAB，具备广泛的零样本能力，能够高效微调并解决多动作问题。研究提出了联邦学习框架，优化在线多代理算法，确保次线性增长，并通过实证验证其在随机数据摘要问题中的有效性。此外，研究还探讨了不安定多臂赌博机问题，提出新算法以最大化敌对奖励，并展示了在拜占庭攻击下的鲁棒性。

一种用于合作资源分配的联合在线不安分强盗框架

BriefGPT - AI 论文速递 ·

该研究提出了一种基于神经网络的预训练模型，具有广泛的零样本能力，适用于离散或连续状态空间的多动作问题。该模型解决了以往研究中在处理连续状态时需要重新训练等限制，具有理论收敛保证和实证优势。

无眠多臂赌博中的零样本学习

BriefGPT - AI 论文速递 ·