小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了一种名为SynPO的自增强方法，通过自我提示生成器和响应改进器的迭代机制，解决大型语言模型对高质量偏好数据的依赖，提升指令跟随能力和任务表现。

利用合成偏好数据自增强大型语言模型

BriefGPT - AI 论文速递 ·