关于联邦学习中 LLM 微调的客户端偏好

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文介绍了一种利用人类反馈进行强化学习的方法,通过微调预训练的大型语言模型生成符合人类偏好的输出。作者提出了FedBis框架解决隐私问题,使用二值选择器训练具有偏好数据集的客户。同时,作者还提出了FedBiscuit算法,通过训练多个选择器将客户组织成平衡和不相交的簇。实验结果表明,FedBiscuit在模拟人类对成对补全的偏好上表现出优越性能,超过了传统的集中式训练。

🎯

关键要点

  • 利用人类反馈进行强化学习(RLHF)微调大型语言模型(LLM),生成符合人类偏好的输出。

  • 提出FedBis框架解决隐私问题,客户使用二值选择器进行协作训练。

  • 通过训练选择器增强生成人类优选补全的LLM。

  • 提出FedBiscuit算法,将客户组织成平衡和不相交的簇,训练多个选择器。

  • FedBiscuit在模拟人类对成对补全的偏好上表现优越,优于FedBis和传统集中式训练。

  • 在联邦人类偏好数据集上进行广泛实验,解决客户之间的异构数据划分问题。

➡️

继续阅读