小红花·文摘

本文介绍了一种名为指令反向翻译的方法，用于构建高质量的指令跟随语言模型。该方法通过自动标记人工编写的文本与相应的指令，并使用少量种子数据和给定的网络语料库对语言模型进行微调。通过为网络文档生成指令提示来构建训练样本，并从中选择高质量的例子进行自我策划。通过对 LLaMa 进行两次迭代的微调，得到一个在 Alpaca 排行榜上性能优于其他基于 LLaMa 的模型的模型，且不依赖蒸馏数据，展示了高度有效的自我对齐。