小红花·文摘

本文探讨了预训练模型的三种主要目标：自回归语言建模（GPT）、掩码语言建模（BERT）和去噪序列到序列（T5/BART）。每种方法在训练任务上有所不同，导致模型在生成、理解和条件生成能力上的差异。GPT专注于续写，BERT擅长理解，而T5/BART兼顾生成与理解。最终，GPT因其统一接口和扩展性成为主流。

【Transformer 与注意力机制】30｜预训练目标：BERT、GPT、T5 其实在学三种不同的事

土法炼钢兴趣小组的博客 ·

最便宜的城区 NOA 车型！全新极狐阿尔法 T5 新增增程版，10.98 万元起

爱范儿 ·

小马智行与北汽新能源联合推出的第300台极狐阿尔法T5 Robotaxi下线，标志着千台Robotaxi车队目标的推进。该车型具备L4级自动驾驶能力，预计将在国内一线城市投放，并探索国际市场。

第300台极狐阿尔法T5无人车下线，小马智行冲刺千台Robotaxi车队

量子位 ·

使用T5和Transformers实现多语言翻译

MachineLearningMastery.com ·

GLM是一种通用语言模型，通过自回归填空预训练，结合2D位置编码和混合任务训练，提升了自然语言理解与生成的性能。实验表明，GLM在多个任务上优于BERT和T5，展现了其灵活性和可推广性。

论文分享：GLM: General Language Model Pretraining

京东科技开发者 ·

本研究提出了一种基于Flan-T5的编码解码模型FlanEC，旨在改善自动语音识别中的语言和语法错误。通过扩展训练数据和多样化数据集，显著提升了错误修正效果。

FlanEC：探索Flan-T5用于自动语音识别后错误修正

BriefGPT - AI 论文速递 ·

本研究解决了约鲁巴文自动加音系统评估的缺乏标准数据集的问题，提出了约鲁巴文自动加音基准数据集（YAD）。通过对T5模型进行预训练，我们证明该模型在多个多语言训练的T5模型中表现优越，且更多的数据和更大的模型有助于提高约鲁巴文的加音效果。

YAD：利用T5改进约鲁巴文自动加音系统

BriefGPT - AI 论文速递 ·

微调T5-Small模型以实现全新语言的翻译：林布语

DEV Community ·

本研究比较了临床T5模型与FLAN调优的通用T5模型在临床数据上的表现，结果显示临床T5模型在某些任务上仅有微小提升，且在不同领域的评估中表现较差，为未来临床大语言模型的开发提供了指导。

Is the Clinical T5 Model More Suitable for Clinical Text?

BriefGPT - AI 论文速递 ·

如何使用Hugging Face Transformers微调T5模型以提升问答任务的性能

KDnuggets ·

本文研究了多任务预训练在自然语言处理中的效果，提出了ExT5模型，通过107个任务的自监督和监督学习显著提升了性能和样本效率。同时，提出了ComplexityNet模型，专注于任务复杂性评估，展现了在准确性和计算资源使用上的优势。此外，研究探讨了任务分组和难度标注数据集的构建，为多任务学习提供了新的方法和基准。

任务复杂性：用于任务复杂性分类的数据集及其在In-Context Learning、FLAN-T5和GPT-4o基准测试中的应用

BriefGPT - AI 论文速递 ·

本文探讨了知识蒸馏（KD）在大型语言模型（LLM）中的应用，提出了多种新机制以提升小型模型的性能。研究表明，通过生成无标签数据和多任务训练，可以在减少参数的情况下实现与大型模型相当的效果。同时，文章评估了不同蒸馏方法的效果，强调了其在自然语言处理和文档分析中的重要性，为未来研究提供了方向。

利用蒸馏技术进行文档理解：以FLAN-T5为案例研究

BriefGPT - AI 论文速递 ·

本文研究了预训练语言模型（PLMs）在图转文本生成中的应用，分析了任务自适应预训练策略对BART和T5模型性能的影响。研究表明，知识图谱的使用可以提高语言模型的准确性，并提出了新的数据集WikiGraphs以促进相关研究。同时，探讨了大型语言模型在理解图形数据方面的局限性及未来研究方向。

无本体的通用领域知识图到文本生成数据集

BriefGPT - AI 论文速递 ·

本文介绍了多种基于BERT的句子嵌入方法，如SBERT、SBERT-WK和BERT-flow，展示了它们在语义文本相似度任务中的优越性能。研究表明，ALBERT在某些任务上优于BERT，而T5模型在句子嵌入方面也取得了进展。此外，提出的对比学习框架有效利用了未标注文本的编码。

从预训练变换模型中提取句子嵌入

BriefGPT - AI 论文速递 ·

将语音理解能力整合到预训练的大型语言模型已成为一个重要的研究方向。我们提出了 BESTOW 架构，将两个世界中的最佳特征整合到一个单一的模型中，具有高效和强大的多任务能力。同时，我们改进了可流式处理的 SpeechLLM，并展示了在广泛的语音任务上取得了非常强的性能。

BESTOW: GPT 和 T5 中最佳的两种世界的高效和可流式语音语言模型

BriefGPT - AI 论文速递 ·

本文探讨了T5和GPT-3模型在机器翻译中的效果，并评估了多种检测工具的性能。研究表明，GPT-3生成的译文质量高，难以辨别真伪。同时分析了语言模型中的抄袭行为，提出了改进检测器的方案，并探讨了大型语言模型在文本生成和数据增强中的应用潜力。

PlagBench: 大型语言模型在抄袭生成和检测中的二元性探索

BriefGPT - AI 论文速递 ·

该研究探讨了对话中情感原因的识别，提出了多个基于神经网络的模型和数据集，旨在提高情感分析的准确性。通过多任务学习和因果推断方法，研究在情感原因提取和情感识别方面取得了显著进展，F1值显著提升。

nicolay-r 参加 SemEval-2024 任务 3：在情绪状态的对话中使用 Flan-T5 进行情绪推理原因的链式思维

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）指令调优的最新研究进展，提出了对比指令调优（CoIN）方法，以提高模型对未知指令的稳健性。研究表明，人工指导的数据集比合成数据更有效，并且通过优化数据使用，可以在较少数据下提升模型性能。此外，构建了日本指令数据集和BioInstruct数据集，以增强模型在特定领域的表现。

FLawN-T5: 法律推理的有效指导调整数据混合的实证研究

BriefGPT - AI 论文速递 ·

本研究探讨了多语言文本到文本转换器（T5）及其句子嵌入的应用，提出了SentGLUE基准，开发了mLongT5并评估其在多语言任务中的表现，显示出优越性。同时，介绍了开源的E5文本嵌入模型，强调推理效率与嵌入质量的平衡，推动了多语言文本检索和机器翻译的发展。

多语句 - T5：可扩展的多语句编码器适用于多语言应用

BriefGPT - AI 论文速递 ·

本文研究了无监督原始数据改善自然语言模型预训练的方法，提出了三种替代BERT的预训练目标，并介绍了自监督预训练任务与下游应用结构对齐的方法，展示了在多个任务上的性能提升。

SpacTor-T5: 使用跨度破坏和替换标记检测预训练 T5 模型

BriefGPT - AI 论文速递 ·