小红花·文摘

本文探讨了预训练模型的三种主要目标：自回归语言建模（GPT）、掩码语言建模（BERT）和去噪序列到序列（T5/BART）。每种方法在训练任务上有所不同，导致模型在生成、理解和条件生成能力上的差异。GPT专注于续写，BERT擅长理解，而T5/BART兼顾生成与理解。最终，GPT因其统一接口和扩展性成为主流。

【Transformer 与注意力机制】30｜预训练目标：BERT、GPT、T5 其实在学三种不同的事

土法炼钢兴趣小组的博客 ·

本研究提出了一种名为ECG-Byte的分词器，用于多通道心电图生成文本任务。该方法通过自回归语言建模，将心电图信号压缩为可映射的令牌，实现端到端训练。与传统方法相比，ECG-Byte在性能上具有竞争力，训练时间减少一半，数据需求降低约48%。

ECG-Byte: A Tokenizer for End-to-End Generative Electrocardiogram

BriefGPT - AI 论文速递 ·

GateLoop是一种利用线性递推模型的门控循环模型，实现了比现有模型更优越的自回归语言建模。它具有低成本的递归模式和高效的并行模式，对Transformer和最近提出的架构有重要影响。同时，GateLoop揭示了数据控制的相对位置信息对注意力机制的意义，并建议将数据控制的复杂累积乘积纳入上下文聚合的关键步骤，以实现更强大的序列模型。

GateLoop: 全数据控制的线性递归用于序列建模

BriefGPT - AI 论文速递 ·

本文介绍了一种名为Mega的单头门控注意力机制，具有指数移动平均数以将位置感知的局部依赖性的归纳偏差纳入位置不可知的注意力机制中。该文进一步提出了Mega的变体，通过将整个序列有效地分成多个具有固定长度的块以实现线性时间和空间复杂度。在长序列建模、神经机器翻译、自回归语言建模以及图像和语音分类等广泛测试中，证明了Mega优于其他序列模型，包括Transformer的变体和最近的状态空间模型。

Habana Gaudi 处理器上大型语言模型的基准测试与深入性能研究

BriefGPT - AI 论文速递 ·