小红花·文摘

本研究发现，多语言大规模序列到序列模型比解码器模型更具有效的学习能力，特别适用于低资源语言。AlexaTM 20B在一次性概述任务和机器翻译任务上的性能比PaLM解码器模型更好。此外，AlexaTM 20B在多语言任务中也表现出最先进的性能。seq2seq模型是一个强大的替代解码器模型的大规模语言模型的选择。