小红花·文摘

本文提出了一种新的混合训练目标，将掩码语言建模与因果语言建模相结合，克服了语言模型训练的局限性。实验结果表明，混合预训练显著优于单独使用掩码或因果模型。

GPT or BERT: Why Not Combine the Two?

BriefGPT - AI 论文速递 ·

本研究发现经过训练的变换器模型在大规模语言模型中具有较强的内在推理能力，能有效解决数独谜题，为智能化应用提供新视角。

Causal Language Models Enhance Search and Reasoning Abilities in Logical Puzzles

BriefGPT - AI 论文速递 ·

本研究发现，多语言大规模序列到序列模型比解码器模型更具有效的学习能力，特别适用于低资源语言。AlexaTM 20B在一次性概述任务和机器翻译任务上的性能比PaLM解码器模型更好。此外，AlexaTM 20B在多语言任务中也表现出最先进的性能。seq2seq模型是一个强大的替代解码器模型的大规模语言模型的选择。

序列到序列的西班牙语预训练语言模型

BriefGPT - AI 论文速递 ·