小红花·文摘

该研究提出了两个算法来解决dueling bandit问题，一个适用于少量的arms，另一个在大规模问题上表现更好。算法旨在最小化与Copeland winner相关的遗憾，并提供了理论结果以界定它们所积累的遗憾。这些结果改善了现有结果，没有限制性假设，提供了最佳结果。