小红花·文摘

本文提出多种新方法以提升推荐系统性能，包括基于级联假设的评估器、安全强化学习中的对抗攻击方法、悲观离线排序学习和风险感知的CLTR方法。这些方法在实验中表现优越，能够提高长期收益、优化排名度量，并增强模型的鲁棒性和安全性。