FedRLHF: 一个收敛保证的联邦框架,用于隐私保护和个性化的强化学习人类反馈

📝

内容提要

本研究针对传统人类反馈强化学习(RLHF)框架在隐私保护和个性化需求日益增加的背景下面临的中心化数据的局限,提出了一个去中心化的联邦强化学习人类反馈框架(FedRLHF)。该框架不仅保证了用户隐私的保护,还与中心化RLHF相当,同时在多样化的客户环境中提升了个性化推荐能力。

➡️

继续阅读