小红花·文摘

本文介绍了一种新的Token修剪方法，旨在优化transformer模型的推理成本。通过逐层自适应修剪低得分Token，提升性能2.5%，降低FLOPs，增强处理器和GPU的吞吐量。研究还提出了Token Pruning & Squeezing模块和动态视觉转换器的蒙版微调，显著提高了模型的计算速度和准确性，同时降低了计算复杂度。

训练噪声令牌剪枝

BriefGPT - AI 论文速递 ·

本文探讨了低资源语言的多语言自动语音识别（ASR）技术，提出通过单个transformer模型和数据增强方法来提高识别精度。研究表明，多语言训练显著提升了低资源语言的识别性能，尤其在51种语言的基准测试中表现突出。通过跨语言学习和适应性激活网络等技术，展示了在低资源环境下的有效性和潜力。

多语种语音识别中的低资源语言加权交叉熵

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在推理能力和注意力机制方面的研究进展。通过假设检验，分析了transformer模型中注意力头的不同角色及其对自然语言处理任务的影响。研究发现，LLMs在生成文本方面表现出色，但在功能性语言能力测试中存在不足。文章提出了优化注意力机制以增强推理能力的建议，并强调了人类推理与模型推理之间的差异。

大型语言模型的注意头：综述

BriefGPT - AI 论文速递 ·

研究发现，transformers在复制任务上的性能优于GSSMs，且在泛化方面更好。预训练的大型语言模型也证明了transformer模型在复制和检索上下文信息的任务上的优势。综合结果表明，transformers与GSSMs在实际任务中存在根本差距。

将变压器视为所罗门夫归纳法的近似

BriefGPT - AI 论文速递 ·

Facebook AI在WAT 2019的缅甸语-英语翻译任务中使用基于BPE的transformer模型，通过自训练、回译和集成等方法提高了系统的泛化能力，排名第一。

利用变压器翻译维基百科分类名称

BriefGPT - AI 论文速递 ·

该论文介绍了XR-Transformer，一种用于加速transformer模型微调的新递归方法。在Amazon-3M数据集上，该方法实现了较快的训练速度，并将Precision@1从51％提高到54％，成为目前基于transformer的XMC模型中的最佳结果之一。

随机循环向量的多标签学习

BriefGPT - AI 论文速递 ·

通过实验和注意力分析，研究了transformer模型在学习算术算法方面的能力，并确定了关键因素。展示了transformer模型能够通过有针对性的注意力偏置推广到长长度，并引入了注意力偏置校准阶段。使用ABC，transformer模型在某些算术任务上达到了完美长度广义。

图灵程序的通用长度泛化

BriefGPT - AI 论文速递 ·

本研究提出了一种基于潜在向量定义注意力的方法，将传统transformer模型的时间复杂度降低为随序列长度线性增长。该模型适用于双向和单向任务，并且在推理过程中能够高效地进行语言生成任务的记忆和时间循环实现。与标准transformer相比，该方法只需常数时间计算下一个记号，实证表现相当，且允许在标准attention不可行的背景窗口范围内进行扩展。

该研究介绍了SemEval-2023 Task 2的发现，该任务聚焦于12种语言的复杂名词实体识别方法，包括单语和多语境以及噪声情况下的实现。MultiCoNER 2是SemEval-2023中最受欢迎的任务之一，发现了媒体标题和产品名称是最具挑战性的实体类型，并提出了融入外部知识到transformer模型的方法以实现最佳表现。嘈杂的数据对模型性能有重要影响，未来研究需要关注嘈杂数据中复杂实体的NER鲁棒性。

CoNLL#: CoNLL-03 英文细粒度错误分析和校正测试集

BriefGPT - AI 论文速递 ·

本文提出了一种利用可微分的基于堆栈的注意力机制来增强transformer模型在无上下文语言任务中的建模能力的方法。通过添加基于堆栈的注意力机制，可以提高模型的可解释性，并能够建模一些但不是全部确定性的无上下文语言。

堆栈注意力的 Transformer

BriefGPT - AI 论文速递 ·

本教程介绍了将文本数据纳入精算分类和回归任务的工作流程，重点介绍了使用基于 transformer 模型的方法。通过对一组包含 400 个单词的汽车事故的描述和一组短期财产保险索赔描述的数据集进行演示，探讨了多语言环境和长输入序列等挑战性问题，同时展示了解释模型输出、评估和改进模型性能的方法，通过在应用领域或特定预测任务上对模型进行微调，提供了实现分类任务处理的实用方法。使用仅经过最少预处理和微调的现成自然语言处理 (NLP) 模型的语言理解技巧所实现的结果，充分展示了迁移学习在实际应用中的威力。

用 Transformers 打击犯罪：在支付数据中进行地址解析方法的经验分析

BriefGPT - AI 论文速递 ·

对于在不同阿拉伯语方言上训练的transformer模型进行的分析发现，单词形态在较低和中间层次上学习，句法依赖在较高层次上被捕获。嵌入层的神经元是一词多义的，而中间层的神经元仅适用于特定属性。

马格里布情感分析器的同形攻击

BriefGPT - AI 论文速递 ·

RTA-Former是一种新型网络，使用transformer模型作为编码器骨干结构，并在解码器中创新地采用反向注意力与transformer阶段进行增强的边缘分割。实验结果表明RTA-Former在五个息肉分割数据集上实现了最先进的性能。这种新型网络有望提高基于Transformer的息肉分割的准确性，改善临床决策和患者结果。

RTA-Former: 反向 Transformer 注意力用于息肉分割

BriefGPT - AI 论文速递 ·

本研究论文探讨了隐私保护协作训练中使用小型深度学习模型的新方法，以及FL应用中使用transformer模型的必要性。还提出了一种专注于FL应用中计算和通信效率的新的分类法，并讨论了当前广泛使用的FL框架的现状和未来研究潜力。

基于高效联邦学习方法的基础模型训练调研

BriefGPT - AI 论文速递 ·

EELBERT是一种基于transformer模型的压缩方法，成功地显著减小了模型的大小，并在GLUE基准测试中证明了EELBERT与传统BERT模型之间仅有微小的回归差异。

EELBERT：通过动态嵌入实现微小模型

BriefGPT - AI 论文速递 ·

该研究介绍了 SemEval-2023 Task 2 的发现，该任务主要聚焦于跨越 12 种语言的复杂名词实体的识别方法。MultiCoNER 2 是 SemEval-2023 中最受欢迎的任务之一，发现了媒体标题和产品名称是最具挑战性的实体类型，并提出了将外部知识融入 transformer 模型中来实现最佳表现的方法。同时，该研究注意到嘈杂的数据对模型性能有重要影响，未来需要关注嘈杂数据中包含的复杂实体的 NER 鲁棒性。