小红花·文摘

研究创建了名为RETRO的模型，通过从大型语料库中检索与前面token相似的文档块来改善自回归语言模型的条件。RETRO结合了一个冻结的Bert检索器、一个可微分的编码器和一个分块交叉关注机制，可以预测token并在fine-tuning后转化为下游的knowledge-intensive任务。该研究为提高语言模型的性能开辟了新的途径。