小红花·文摘

构建基于注意力机制的序列到序列（Seq2Seq）模型用于语言翻译

MachineLearningMastery.com ·

本文介绍了在ILSUM 2022数据集上使用不同预训练seq2seq模型微调的结果，PEGASUS模型在英文结果上表现最佳，IndicBART模型在印地语结果上表现最佳。对瓜拉提语进行了微调并重新运行了PEGASUS模型，使用ROUGE-1、ROUGE-2和ROUGE-4评估了推理成果。

Mukhyansh：面向印度语言的标题生成数据集

BriefGPT - AI 论文速递 ·

本研究发现，多语言大规模序列到序列模型比解码器模型更具有效的学习能力，特别适用于低资源语言。AlexaTM 20B在一次性概述任务和机器翻译任务上的性能比PaLM解码器模型更好。此外，AlexaTM 20B在多语言任务中也表现出最先进的性能。seq2seq模型是一个强大的替代解码器模型的大规模语言模型的选择。

序列到序列的西班牙语预训练语言模型

BriefGPT - AI 论文速递 ·

本文介绍了一个开源的150亿双语不对称seq2seq模型OpenBA，通过三阶段训练策略从头开始训练模型，展现出卓越性能，提供了预训练的主要细节，并重构了代码以符合Huggingface Transformers Library的设计原则。

OpenBA：一个从零开始的开源 15B 双向语言模型预训练

BriefGPT - AI 论文速递 ·

本文介绍了OpenBA，一个开源的150亿双语不对称seq2seq模型，采用三阶段训练策略从头开始训练模型，并在多个自然语言处理任务上展现出卓越性能。该模型提供了预训练的主要细节，并重构了代码以符合Huggingface Transformers Library的设计原则。

百川 2：开放的大规模语言模型

BriefGPT - AI 论文速递 ·