通过对抗强化学习人类反馈平台来解决大型语言模型的不一致性
📝
内容提要
本研究针对现有的RLHF平台在安全性和可靠性方面的新问题,提出了一种攻击方法,能够选择性地操纵偏好数据集中的数据样本,从而破坏大型语言模型(LLM)的对齐过程。实验结果表明,该攻击能有效引导LLM朝向不良行为,强调了研究RLHF平台脆弱性的重要性及其对LLM调优过程中可能造成的不一致性影响。
🏷️
标签
➡️