关于联邦学习中 LLM 微调的客户端偏好

利用人类反馈进行强化学习（RLHF）通过使用偏好数据集微调预训练的大型语言模型（LLM），使 LLM 能够生成符合人类偏好的输出。为了解决由于隐私问题而不愿共享数据的客户所持有的这些偏好数据集的敏感性问题，我们提出了一个可行的框架，其中客户使用我们提出的 FedBis 协作训练一个具有偏好数据集的二值选择器。通过训练一个经过良好训练的选择器，我们可以进一步增强生成人类优选补全的...

本文介绍了一种利用人类反馈进行强化学习的方法，通过微调预训练的大型语言模型生成符合人类偏好的输出。作者提出了FedBis框架解决隐私问题，使用二值选择器训练具有偏好数据集的客户。同时，作者还提出了FedBiscuit算法，通过训练多个选择器将客户组织成平衡和不相交的簇。实验结果表明，FedBiscuit在模拟人类对成对补全的偏好上表现出优越性能，超过了传统的集中式训练。

FedBis FedBiscuit llm 客户端强化学习联邦学习语言模型隐私问题