本文介绍了一种名为指令反向翻译的方法,用于构建高质量的指令跟随语言模型。该方法通过自动标记人工编写的文本与相应的指令,并使用少量种子数据和给定的网络语料库对语言模型进行微调。通过为网络文档生成指令提示来构建训练样本,并从中选择高质量的例子进行自我策划。通过对 LLaMa 进行两次迭代的微调,得到一个在 Alpaca 排行榜上性能优于其他基于 LLaMa 的模型的模型,且不依赖蒸馏数据,展示了高度有效的自我对齐。
完成下面两步后,将自动完成登录并继续当前操作。