小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了一种新的Token修剪方法,旨在优化transformer模型的推理成本。通过逐层自适应修剪低得分Token,提升性能2.5%,降低FLOPs,增强处理器和GPU的吞吐量。研究还提出了Token Pruning & Squeezing模块和动态视觉转换器的蒙版微调,显著提高了模型的计算速度和准确性,同时降低了计算复杂度。

训练噪声令牌剪枝

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

研究表明,机器学习的突破源于大规模数据和模型。通过在千万局国际象棋数据集上训练2.7亿参数的transformer模型,该模型达到了2895的快棋等级分,超越了AlphaZero和GPT-3.5-turbo-instruct。

通过图形表示增强棋类强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

研究显示,机器学习的进步主要依赖于大规模数据和注意力机制。通过在一千万局国际象棋比赛数据上训练一个含2.7亿参数的transformer模型,并利用Stockfish 16引擎注释棋盘,获得约150亿数据点,模型达到了2895的Lichess快棋等级。无需特定优化或搜索算法,模型解决了复杂棋局,性能超过了AlphaZero的策略和值网络及GPT-3.5-turbo-instruct。研究强调规模对性能的重要性,并通过实验验证设计选择和超参数。

无搜索的中国象棋人工智能的掌握

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

研究发现,机器学习的重要突破主要归功于大规模的注意力架构和数据集。通过对一个包含一千万局国际象棋比赛的数据集进行监督学习,使用了2.7亿个参数的transformer模型,得到了约150亿个数据点,并达到了2895的Lichess快棋等级分。研究还发现,该模型在性能上超过了AlphaZero和GPT-3.5-turbo-instruct。研究表明,只有在足够规模的情况下,才能展现强大的国际象棋性能。

基于模型预测控制、强化学习与回滚的优越计算机国际象棋

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-10T00:00:00Z

研究发现,transformers在复制任务上的性能优于GSSMs,且在泛化方面更好。预训练的大型语言模型也证明了transformer模型在复制和检索上下文信息的任务上的优势。综合结果表明,transformers与GSSMs在实际任务中存在根本差距。

将变压器视为所罗门夫归纳法的近似

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

Facebook AI在WAT 2019的缅甸语-英语翻译任务中使用基于BPE的transformer模型,通过自训练、回译和集成等方法提高了系统的泛化能力,排名第一。

利用变压器翻译维基百科分类名称

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-12T00:00:00Z

该论文介绍了XR-Transformer,一种用于加速transformer模型微调的新递归方法。在Amazon-3M数据集上,该方法实现了较快的训练速度,并将Precision@1从51%提高到54%,成为目前基于transformer的XMC模型中的最佳结果之一。

随机循环向量的多标签学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

通过实验和注意力分析,研究了transformer模型在学习算术算法方面的能力,并确定了关键因素。展示了transformer模型能够通过有针对性的注意力偏置推广到长长度,并引入了注意力偏置校准阶段。使用ABC,transformer模型在某些算术任务上达到了完美长度广义。

图灵程序的通用长度泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-03T00:00:00Z

本研究提出了一种基于潜在向量定义注意力的方法,将传统transformer模型的时间复杂度降低为随序列长度线性增长。该模型适用于双向和单向任务,并且在推理过程中能够高效地进行语言生成任务的记忆和时间循环实现。与标准transformer相比,该方法只需常数时间计算下一个记号,实证表现相当,且允许在标准attention不可行的背景窗口范围内进行扩展。

使用 Delta 规则并行化线性变换器来处理序列长度

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-10T00:00:00Z

该研究介绍了SemEval-2023 Task 2的发现,该任务聚焦于12种语言的复杂名词实体识别方法,包括单语和多语境以及噪声情况下的实现。MultiCoNER 2是SemEval-2023中最受欢迎的任务之一,发现了媒体标题和产品名称是最具挑战性的实体类型,并提出了融入外部知识到transformer模型的方法以实现最佳表现。嘈杂的数据对模型性能有重要影响,未来研究需要关注嘈杂数据中复杂实体的NER鲁棒性。

CoNLL#: CoNLL-03 英文细粒度错误分析和校正测试集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z

本文提出了一种利用可微分的基于堆栈的注意力机制来增强transformer模型在无上下文语言任务中的建模能力的方法。通过添加基于堆栈的注意力机制,可以提高模型的可解释性,并能够建模一些但不是全部确定性的无上下文语言。

堆栈注意力的 Transformer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-07T00:00:00Z

对于在不同阿拉伯语方言上训练的transformer模型进行的分析发现,单词形态在较低和中间层次上学习,句法依赖在较高层次上被捕获。嵌入层的神经元是一词多义的,而中间层的神经元仅适用于特定属性。

马格里布情感分析器的同形攻击

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-05T00:00:00Z

RTA-Former是一种新型网络,使用transformer模型作为编码器骨干结构,并在解码器中创新地采用反向注意力与transformer阶段进行增强的边缘分割。实验结果表明RTA-Former在五个息肉分割数据集上实现了最先进的性能。这种新型网络有望提高基于Transformer的息肉分割的准确性,改善临床决策和患者结果。

RTA-Former: 反向 Transformer 注意力用于息肉分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-22T00:00:00Z

本研究论文探讨了隐私保护协作训练中使用小型深度学习模型的新方法,以及FL应用中使用transformer模型的必要性。还提出了一种专注于FL应用中计算和通信效率的新的分类法,并讨论了当前广泛使用的FL框架的现状和未来研究潜力。

基于高效联邦学习方法的基础模型训练调研

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-09T00:00:00Z

EELBERT是一种基于transformer模型的压缩方法,成功地显著减小了模型的大小,并在GLUE基准测试中证明了EELBERT与传统BERT模型之间仅有微小的回归差异。

EELBERT:通过动态嵌入实现微小模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

本文研究了transformer模型在学习算术算法方面的能力,并确定了实现最佳长度泛化的关键因素。通过有针对性的注意力偏置和注意力偏置校准阶段,模型能够自动学习适当的注意力偏置,达到前所未有的完美长度广义。

从插值到外推:算术 Transformer 的完全长度概括

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-18T00:00:00Z

该论文介绍了一种名为XR-Transformer的新递归方法,用于加速transformer模型在大标签空间上的微调过程。该方法在公共Amazon-3M数据集上取得了较快的训练速度,并将Precision@1从51%提高到54%,成为目前基于transformer的XMC模型中的最新最佳结果之一。

MatchXML:一种高效的文本标签匹配框架用于极端多标签文本分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-25T00:00:00Z

本文研究了基于transformer模型在生物医学领域的应用,特别是在癌症精准医学中解释基因组变异的临床意义。分析发现这些模型能够编码生物知识,但在特定任务中微调时可能会丢失部分知识。同时,还分析了模型在数据集中的偏见和不平衡行为。

kTrans: 知识感知 Transformer 用于二进制代码嵌入

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-24T00:00:00Z

本文介绍了一种用于3D动作识别的MAMP框架,通过预测蒙面的骨骼序列,提高自监督预训练的性能。实验证明MAMP方法显著提高了transformer模型的性能,并取得了最先进的结果。

面具化运动预测器是强大的三维动作表示学习器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码