小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究探讨了变压器模型的两种学习模式:权重内学习(IWL)和上下文学习(ICL)。结果表明,环境的可预测性影响这两种模式的平衡。在高稳定性环境中,IWL更有效,而在低稳定性环境中,ICL更具优势。这为学习模式的转换和训练方法的改进提供了新见解。

Predictability Shapes Adaptation: An Evolutionary Perspective on Learning Modes in Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-14T00:00:00Z

本研究探讨了无状态架构中的冷启动问题,提出了一种基于变压器模型的方法,成功将冷启动时间降低了79%。

Research on Mitigating Cold Start Issues in Stateless Architectures Based on Transformer Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本研究探讨了变压器模型在短序列训练后对长序列泛化不良的问题。通过分析消失方差,证明了长序列导致多头注意力模块输出方差降低。实验结果表明,在注意力输出后应用层归一化能显著改善长度泛化效果,减少分布偏移。

On Vanishing Variance in Transformer Length Generalization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了一种基于变压器模型的方法,显著改善了低资源语言罗马乌尔都语与乌尔都语之间的音译效果,超越了RNN方法,验证了多语种迁移学习的有效性。

低资源罗马乌尔都语与乌尔都语的音译:基于变压器模型的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

本文提出了一种新框架,将变压器模型中的残差流视为逐层演变的动力系统,研究大型人工智能模型的内部机制,揭示了不同层次间残差流单元的强连续性,为理解现代神经网络提供了基础。

Transformer Dynamics: Application of Neuroscientific Approaches in the Interpretability of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了AdaSplash方法,旨在解决变压器模型中softmax注意力机制在长上下文任务中的计算成本问题,通过结合GPU优化和自适应稀疏性,显著提高了运行时间和内存效率。

AdaSplash: Adaptive Sparse Flash Attention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种新方法——层集成记忆(LIMe),旨在解决标准变压器模型因仅使用前一层表示而导致的性能下降问题。通过访问早期层的隐藏状态,LIMe显著提升了多种架构和任务的性能,并指明了未来研究的方向。

You Are Not Fully Utilizing the Representation Capacity of Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z

本研究提出了一种Top-Theta注意力方法,通过补偿阈值有效剪枝不重要的注意力元素,从而降低变压器模型的计算复杂性。在生成解码阶段,该方法将V缓存行数减少了3倍,在预填充阶段则降低了10倍的注意力元素数量,同时保持了模型的准确度。

Top-Theta Attention: Sparsifying Transformers through Compensated Thresholding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-12T00:00:00Z

分组查询注意力机制旨在降低变压器模型注意力层的内存IO压力。通过共享键和值张量,分组查询的算术强度高于传统注意力,尤其在解码阶段表现更佳。增大组大小可在不显著影响模型准确性的情况下,优化注意力层性能。

分组查询注意力性能理论分析

Lei Mao's Log Book
Lei Mao's Log Book · 2025-02-03T08:00:00Z

本文介绍了Samba ASR,这是首个基于Mamba架构的先进自动语音识别模型,克服了变压器模型在长距离依赖处理上的局限,显著提高了语音识别的准确性和效率。

基于结构状态空间模型的Samba ASR先进语音识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-06T00:00:00Z

本研究探讨了变压器模型在迷宫任务中形成的因果世界模型,利用稀疏自编码器和注意力模式分析,揭示了模型构建及其因果作用,表明模型能够超越输入特征,增强对自发结构的理解。

使用因果世界模型的变压器在迷宫求解任务中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

本研究探讨了变压器模型在事实回忆中的潜力与局限,提出了一种创新的浅层变压器方法,证明其存储容量与参数呈线性关系,并在合成任务中实现了100%的准确率,具有重要意义。

通过联想记忆理解变压器中的事实回忆

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-09T00:00:00Z

本研究探讨了变压器模型在时间序列预测中的低效,发现其泛化能力不如简单的线性残差模型。提出了“非对称学习”理论,阐明了注意力网络在处理不一致数据时的局限性,为改进变压器架构提供了理论基础。

Curse of Attention: A Kernel-Based Perspective on the Generalization Failures of Transformers in Time Series Forecasting and Beyond

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-08T00:00:00Z

本研究比较了变压器模型在时间序列分析中的时间表示,探讨了固定与学习的时间表示。结果表明,先验知识编码存在挑战,建议未来研究加强人机协作,以提升模型的鲁棒性和可信度。

Comparing Prior and Learned Time Representations in Transformer Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z

本研究提出了一种用户友好的网页音乐轨道上传和排序工具,旨在解决专辑制作中的技术障碍。引入的变压器模型在排序性能上优于随机基线,但仍需改进以达到更高的叙述本质方法的效果。

Automated Album Sorting

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本文探讨了神经网络和变压器模型在分子属性预测中的进展,特别是ChemBERTa和DMP模型在分子表示学习中的应用。研究表明,结合图表示和SMILES序列的预训练方法能显著提升预测性能。此外,AdaMR和Uni-Mol2模型在多个任务中表现优异,MoleX框架则解决了可解释性问题,提升了预测准确性。

野外分子性质预测的两阶段预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本研究探讨了变压器模型在上下文学习中多概念语义的作用及其与创新能力的关系。通过数学分析,提出了一种低噪声稀疏编码提示模型,证明了变压器在复杂训练下的指数收敛性,显示出其重要的应用潜力。

Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z
通过功能叙述实现时间序列的可推广自回归建模

当前变压器模型通常简单拼接时间序列,忽视其特性。本文提出新方法,将时间序列视为时间函数,通过功能空间中的降解算子生成简化样本,训练自回归变压器恢复原始样本。实验显示,该方法在22个数据集上表现优于其他预训练方法,提升6%,展示了作为通用动态学习器的潜力。

通过功能叙述实现时间序列的可推广自回归建模

Apple Machine Learning Research
Apple Machine Learning Research · 2024-10-15T00:00:00Z

本研究使用InAttention替代自注意力机制,解决了变压器模型在上下文长度增加时VRAM需求增加的问题。该方法使VRAM使用量与上下文长度线性增长,降低资源需求,支持在消费级GPU上处理长序列。研究表明,微调可以在不增加训练成本的情况下扩展上下文长度,提升长序列性能。

InAttention:变压器的线性上下文扩展

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z

本研究结合深度学习、迁移学习和变压器模型,提高了阿拉伯字母手语识别的准确性,在两个数据集上实现了99.6%的识别精度,为阿拉伯语听障人士提供了更好的沟通方式。

利用迁移学习和变压器模型的高级阿拉伯字母手语识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码