指导反向翻译的自对齐
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种可扩展的方法,通过自动标记人工编写的文本与相应的指令来构建高质量的指令跟随语言模型。我们的方法命名为指令反向翻译,使用少量种子数据和给定的网络语料库对语言模型进行微调,通过为网络文档生成指令提示来构建训练样本(自助增强),然后从这些候选样本中选择高质量的例子(自我策划)。然后使用这些数据对模型进行微调。对 LLaMa 进行两次迭代的微调可以得到一个模型,它在 Alpaca...
本文介绍了一种名为指令反向翻译的方法,用于构建高质量的指令跟随语言模型。该方法通过自动标记人工编写的文本与相应的指令,并使用少量种子数据和给定的网络语料库对语言模型进行微调。通过为网络文档生成指令提示来构建训练样本,并从中选择高质量的例子进行自我策划。通过对 LLaMa 进行两次迭代的微调,得到一个在 Alpaca 排行榜上性能优于其他基于 LLaMa 的模型的模型,且不依赖蒸馏数据,展示了高度有效的自我对齐。