关于联邦学习中 LLM 微调的客户端偏好

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了一种利用人类反馈进行强化学习的方法,通过微调预训练的大型语言模型生成符合人类偏好的输出。作者提出了FedBis框架解决隐私问题,使用二值选择器训练具有偏好数据集的客户。同时,作者还提出了FedBiscuit算法,通过训练多个选择器将客户组织成平衡和不相交的簇。实验结果表明,FedBiscuit在模拟人类对成对补全的偏好上表现出优越性能,超过了传统的集中式训练。