本文介绍了一种名为独占自注意力(XSA)的方法,旨在提升Transformer的序列建模性能。XSA通过限制注意力仅捕捉与令牌自身值向量正交的信息,从而改善上下文建模。在标准语言建模任务中,XSA在不同模型规模上均优于自注意力(SA),且随着序列长度增加,性能提升更为显著。
谷歌在NeurIPS 2025上推出了新架构Titans和MIRAS,突破了Transformer在超长上下文处理中的限制。Titans结合了RNN的速度与Transformer的性能,能够动态更新记忆,扩展上下文至200万token。MIRAS则提供统一的序列建模框架,优化信息整合与记忆更新。这些新架构在处理长序列时优于现有模型,标志着AI领域的重要进展。
本文探讨了Transformer模型在序列建模中的重要性,解决了RNN和CNN在并行计算及长距离依赖方面的局限。通过多头注意力机制和位置编码,Transformer显著提升了语言建模和机器翻译的效果。
本文探讨了Transformer模型的基础,重点解决序列建模问题。Transformer通过多头自注意力机制和位置编码,克服了传统RNN和CNN在并行计算及长距离依赖捕捉上的不足。文章分析了Transformer的架构,强调了自注意力和交叉注意力在信息处理中的重要性。
本研究分析了脉冲神经网络在序列建模中的记忆机制不足,提出了固定不应期脉冲神经网络架构,为生成稀疏脉冲模式提供了新的理论解释,对序列建模具有重要影响。
该研究提出RWKV-7 '鹅',通过创新的状态演化方法和向量值门控,提升多语言任务中的序列建模性能与效率,超越传统变压器架构。
本研究提出Mamba-Shedder方法,解决了变换器架构在序列建模中的效率问题。通过去除SSR模型的选定组件,实现了模型压缩和计算开销减少,推理速度提升最高达1.4倍,且对模型性能影响最小。
对数记忆网络(LMNs)通过分层对数树结构,解决了传统序列建模模型在处理长序列时的计算和内存低效问题,提供了一种高效且可扩展的解决方案,显著提高了效率。
该论文提出了一种名为MVGamba(多视角甘巴)的方法,将3D内容生成视为状态空间序列建模问题。该模型灵活多样,能够从多种输入形式生成3D形状或场景。
本研究强调顺序上下文在行为建模中的重要性,提出了一种基于隐马尔可夫模型的序列建模框架,能够有效处理不平衡和稀缺数据。
北京大学的林宙辰和徐鑫提出了MixCon,一种新型混合序列建模架构,结合Transformer层、Conba层和MoE组件,提升了计算和内存效率。实验显示,MixCon在长序列处理上优于现有模型,并在多个基准测试中表现出色。未来仍有改进空间。
本文探讨了Transformer模型的通用逼近性及其在序列建模中的应用。研究表明,Transformer能够有效处理长序列,并通过引入循环机制和自适应步数显著提升泛化能力。此外,提出了新的正则化概念和算法表示能力的增强,展示了Transformer在复杂任务中的优势。
本文探讨了通过无监督学习和序列建模技术提升离线强化学习模型性能的方法,提出了广义决策转换器(GDT)和基于未来信息的预训练决策转换器(PDT)等算法,并通过实验验证了其在不同环境下的有效性。这些方法显著加速了训练过程,并在多任务和上下文感知决策中表现出色。
本文探讨了神经多时间范围混合模型(M3)和Mamba架构,旨在解决用户行为的短期和长期依赖问题。研究表明,这些模型在推荐系统中优于传统方法,尤其在处理长序列时表现突出。Mamba模型通过广泛实验在多个领域实现了最先进的性能,推动了序列推荐技术的发展。
本研究探讨了状态空间模型(SSM)在长序列数据建模中的应用,提出了新模型如S4和GraphSSM,并展示其在自然语言处理和语音识别等领域的优势。SSM在性能上超越了传统的循环神经网络和转换器,展现出良好的应用前景。
本文回顾了状态空间模型(SSM)在序列建模中的应用,分析了其与转换器模型的比较,探讨了SSM在自然语言处理和计算机视觉等领域的优势与局限性,并提出了改进训练算法的方法,强调了其在长序列建模中的表现及未来研究方向。
该研究综述了Mamba模型在计算机视觉中的应用,重点探讨其在视频理解、序列建模和多模态学习中的潜力。Mamba模型通过状态空间模型(SSM)实现高效的图像融合和点云分析,展现出优越的性能和效率,为未来研究提供了新方向。
本文介绍了决策 Transformer(DT)及其在强化学习中的应用,提出了一种基于序列建模的框架,展示了DT在多个基准测试中的优越性能。研究探讨了通过联合优化策略提升算法效果,并提出了新的离线强化学习方法图决策 Transformer(GDT),在视觉任务中表现出色。
本文探讨了一种新的离线强化学习方法,将其视为序列建模任务,利用Transformer架构提升模型性能。研究表明,决策转换器(DT)在学习效率和泛化能力上优于传统方法,并引入多头DT和低秩自适应DT以减轻遗忘问题。实验结果显示,这些方法在多个基准测试中表现出色,推动了离线强化学习的发展。
本文介绍了基于Mamba架构的多种模型,包括VideoMamba、Mamba-ND和Graph-Mamba,旨在提升视频理解、序列建模和图网络的性能。这些模型通过线性复杂度和全局建模能力,显著提高了处理速度和准确性,尤其在医学图像分析和多模态任务中表现优异。SegMamba在3D医学图像分割中也展现了高效性。
完成下面两步后,将自动完成登录并继续当前操作。