本文介绍了一种新的Token修剪方法,旨在优化transformer模型的推理成本。通过逐层自适应修剪低得分Token,提升性能2.5%,降低FLOPs,增强处理器和GPU的吞吐量。研究还提出了Token Pruning & Squeezing模块和动态视觉转换器的蒙版微调,显著提高了模型的计算速度和准确性,同时降低了计算复杂度。
本文探讨了低资源语言的多语言自动语音识别(ASR)技术,提出通过单个transformer模型和数据增强方法来提高识别精度。研究表明,多语言训练显著提升了低资源语言的识别性能,尤其在51种语言的基准测试中表现突出。通过跨语言学习和适应性激活网络等技术,展示了在低资源环境下的有效性和潜力。
本文探讨了大型语言模型(LLMs)在推理能力和注意力机制方面的研究进展。通过假设检验,分析了transformer模型中注意力头的不同角色及其对自然语言处理任务的影响。研究发现,LLMs在生成文本方面表现出色,但在功能性语言能力测试中存在不足。文章提出了优化注意力机制以增强推理能力的建议,并强调了人类推理与模型推理之间的差异。
本文介绍了一种新的模型训练方法——上下文学习,使transformer模型能够在不更新参数的情况下,通过输入输出对学习新任务。研究表明,该方法在小数据集上对复杂函数的学习表现出色,并探讨了其在多任务学习中的应用及泛化能力。实证研究发现,大型语言模型在上下文学习中展现了优越的能力,但在面对超出预训练数据的任务时,泛化能力存在退化问题。
该研究针对阿拉伯方言识别,分析了多个关键因素,使用线性支持向量分类模型取得62.51%的F1得分。通过Twitter数据集进行多类别分类,采用基于transformer的预训练模型,最终F1得分达到76.65%。研究还介绍了基于多模型非线性融合的新方法,句子相似度计算匹配率为84%。NADI共享任务推动了阿拉伯语自然语言处理的研究。
本文研究了缺失模态对自动音视频表情识别中 transformer 模型表现的影响。通过消融实验和知识传递网络,提升了模型的泛化性能和情感预测能力。实验结果表明,结合音频和文本信息的多模态模型在多个数据集上表现显著,尤其在 IEMOCAP 数据集上效果最佳。
本文探讨了低秩训练技术,介绍了新方法ReLoRA,适用于350M参数的预训练transformer模型,表现出与常规训练相当的性能。ReLoRA在模型增大时效率提升,适合训练十亿参数网络,展示了低秩训练的潜力及其对缩放定律的影响。
本文探讨了基于transformer模型在工业表格数据中的实体识别应用,提出了表格数据增强策略以提升性能。研究表明,表格的归纳偏差对模型收敛至关重要,并介绍了用于科学表格的实体链接数据集S2abEL,展示了其在实体链接任务中的优越表现。此外,提出了Tabular Entity Linking Lite模型,利用神经语言模型提升表格相关任务的性能。
对于在不同阿拉伯语方言上训练的transformer模型进行的分析发现,单词形态在较低和中间层次上学习,句法依赖在较高层次上被捕获。嵌入层的神经元是一词多义的,而中间层的神经元仅适用于特定属性。
RTA-Former是一种新型网络,使用transformer模型作为编码器骨干结构,并在解码器中创新地采用反向注意力与transformer阶段进行增强的边缘分割。实验结果表明RTA-Former在五个息肉分割数据集上实现了最先进的性能。这种新型网络有望提高基于Transformer的息肉分割的准确性,改善临床决策和患者结果。
本研究论文探讨了隐私保护协作训练中使用小型深度学习模型的新方法,以及FL应用中使用transformer模型的必要性。还提出了一种专注于FL应用中计算和通信效率的新的分类法,并讨论了当前广泛使用的FL框架的现状和未来研究潜力。
EELBERT是一种基于transformer模型的压缩方法,成功地显著减小了模型的大小,并在GLUE基准测试中证明了EELBERT与传统BERT模型之间仅有微小的回归差异。
本文研究了transformer模型在学习算术算法方面的能力,并确定了实现最佳长度泛化的关键因素。通过有针对性的注意力偏置和注意力偏置校准阶段,模型能够自动学习适当的注意力偏置,达到前所未有的完美长度广义。
该论文介绍了一种名为XR-Transformer的新递归方法,用于加速transformer模型在大标签空间上的微调过程。该方法在公共Amazon-3M数据集上取得了较快的训练速度,并将Precision@1从51%提高到54%,成为目前基于transformer的XMC模型中的最新最佳结果之一。
本文研究了基于transformer模型在生物医学领域的应用,特别是在癌症精准医学中解释基因组变异的临床意义。分析发现这些模型能够编码生物知识,但在特定任务中微调时可能会丢失部分知识。同时,还分析了模型在数据集中的偏见和不平衡行为。
本文介绍了一种用于3D动作识别的MAMP框架,通过预测蒙面的骨骼序列,提高自监督预训练的性能。实验证明MAMP方法显著提高了transformer模型的性能,并取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。