使用数据增强和优化偏好改进苏格拉底问答生成

通过使用强化学习反馈和直接优化方法,我们提出了一种数据增强方法和优化模型来处理大型语言模型生成的无效问题,实验结果显示,经过优化的 LLama 2 模型在生成有效问题方面优于现有的方法。

相关推荐 去reddit讨论