本文介绍了一种名为独占自注意力(XSA)的方法,旨在提升Transformer的序列建模性能。XSA通过限制注意力仅捕捉与令牌自身值向量正交的信息,从而改善上下文建模。在标准语言建模任务中,XSA在不同模型规模上均优于自注意力(SA),且随着序列长度增加,性能提升更为显著。
谷歌在NeurIPS 2025上推出了新架构Titans和MIRAS,突破了Transformer在超长上下文处理中的限制。Titans结合了RNN的速度与Transformer的性能,能够动态更新记忆,扩展上下文至200万token。MIRAS则提供统一的序列建模框架,优化信息整合与记忆更新。这些新架构在处理长序列时优于现有模型,标志着AI领域的重要进展。
本文探讨了Transformer模型在序列建模中的重要性,解决了RNN和CNN在并行计算及长距离依赖方面的局限。通过多头注意力机制和位置编码,Transformer显著提升了语言建模和机器翻译的效果。
本研究分析了脉冲神经网络在序列建模中的记忆机制不足,提出了固定不应期脉冲神经网络架构,为生成稀疏脉冲模式提供了新的理论解释,对序列建模具有重要影响。
该研究提出RWKV-7 '鹅',通过创新的状态演化方法和向量值门控,提升多语言任务中的序列建模性能与效率,超越传统变压器架构。
本研究提出Mamba-Shedder方法,解决了变换器架构在序列建模中的效率问题。通过去除SSR模型的选定组件,实现了模型压缩和计算开销减少,推理速度提升最高达1.4倍,且对模型性能影响最小。
对数记忆网络(LMNs)通过分层对数树结构,解决了传统序列建模模型在处理长序列时的计算和内存低效问题,提供了一种高效且可扩展的解决方案,显著提高了效率。
该论文提出了一种名为MVGamba(多视角甘巴)的方法,将3D内容生成视为状态空间序列建模问题。该模型灵活多样,能够从多种输入形式生成3D形状或场景。
本研究强调顺序上下文在行为建模中的重要性,提出了一种基于隐马尔可夫模型的序列建模框架,能够有效处理不平衡和稀缺数据。
本文探讨了如何利用序列建模和Transformer架构解决强化学习问题,改进波束搜索作为规划算法,展示了在长时间序列预测和模仿学习中的灵活性与高效性,并结合基于模型的算法,在稀疏奖励和长时间序列任务中取得优异表现。
北京大学的林宙辰和徐鑫提出了MixCon,一种新型混合序列建模架构,结合Transformer层、Conba层和MoE组件,提升了计算和内存效率。实验显示,MixCon在长序列处理上优于现有模型,并在多个基准测试中表现出色。未来仍有改进空间。
序列建模在多个领域中很重要,传统由RNNs和LSTMs主导,但转换器的出现改变了这一局面。尽管转换器性能优越,但存在复杂度和归纳偏差问题。状态空间模型(SSMs)成为有前景的替代方案,尤其是S4及其变种的出现。SSMs在视觉、音频、语言、医疗等领域应用广泛,并在多个数据集上表现出色。
该工作提出了一种元学习算法,模拟了大型语言模型的能力,通过学习新的视觉概念而无需微调。该方法利用预训练特征提取器,并将元学习重新构造为对已知和未知标签的数据点进行序列建模。在8个元学习基准中,超过或与最先进算法相匹配,无需元训练或微调。
Orchid是一种新颖的架构,通过整合一种新的数据相关卷积机制,平衡了表达能力和计算效率。它在保持效率和线性可扩展性的同时,捕捉了长距离依赖和上下文学习。Orchid在较小的模型尺寸和处理更长序列长度方面优于传统的基于注意力的架构,如BERT和Vision Transformers。这代表了序列建模中高效可扩展深度学习模型的重要进展。
研究人员提出了一种新的健康护理范式,将患者与医疗服务提供者之间的交互表示为事件流,并通过预测未来事件的任务来建模诊断和治疗选择等任务。他们使用MIMIC-IV数据集开发了一个名为MIMIC-SEQ的序列建模基准,研究其能力。
本文介绍了使用序列建模解决强化学习问题的方法,使用Transformer架构建模轨迹分布并改造波束搜索作为规划算法。展示了该方法在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习方面的灵活性和高效性。同时,与基于模型的算法相结合,在稀疏奖励和长时间序列任务中表现出最先进的计划器。
本文介绍了一种元学习算法,通过学习新的视觉概念而无需微调,模拟了大型语言模型的能力。该方法利用预训练特征提取器,并将元学习重新构造为对已知标签和未知标签的数据点进行序列建模。在8个元学习基准中,超过或与最先进算法相匹配,无需元训练或微调。
完成下面两步后,将自动完成登录并继续当前操作。