小红花·文摘

该文介绍了一种名为Retro 48B的预先训练语言模型，通过从1.2万亿令牌中检索继续对43B GPT模型进行额外的1000亿令牌的预训练。Retro 48B在困惑度方面表现更好，InstructRetro在零样本问答任务上明显优于指导调整的GPT。