InstructRetro: 检索增强预训练后的指令调整

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该文介绍了一种名为Retro 48B的预先训练语言模型,通过从1.2万亿令牌中检索继续对43B GPT模型进行额外的1000亿令牌的预训练。Retro 48B在困惑度方面表现更好,InstructRetro在零样本问答任务上明显优于指导调整的GPT。

🎯

关键要点

  • Retro 48B是通过从1.2万亿令牌中检索继续对43B GPT模型进行额外的1000亿令牌的预训练的语言模型。
  • Retro 48B在困惑度方面表现优于原始的43B GPT。
  • InstructRetro在零样本问答任务上明显优于指导调整的GPT。
  • 可以剔除InstructRetro架构中的编码器,直接使用解码器骨干,仍能获得可比较的结果。
  • 预先训练与检索使解码器在问答中更好地融入上下文,为改进GPT解码器指明了方向。
➡️

继续阅读