小红花·文摘

独占自注意力

Apple Machine Learning Research ·

谷歌在NeurIPS 2025上推出了新架构Titans和MIRAS，突破了Transformer在超长上下文处理中的限制。Titans结合了RNN的速度与Transformer的性能，能够动态更新记忆，扩展上下文至200万token。MIRAS则提供统一的序列建模框架，优化信息整合与记忆更新。这些新架构在处理长序列时优于现有模型，标志着AI领域的重要进展。

谷歌新架构突破Transformer超长上下文瓶颈！Hinton灵魂拷问：后悔Open吗？

量子位 ·

深入理解大模型 1：Transformer，大模型的基石

木鸟杂记 ·

本研究分析了脉冲神经网络在序列建模中的记忆机制不足，提出了固定不应期脉冲神经网络架构，为生成稀疏脉冲模式提供了新的理论解释，对序列建模具有重要影响。

Revisiting Reset Mechanisms in Spiking Neural Networks for Sequential Modeling: Specialized Discretization for Binary Activated RNN

BriefGPT - AI 论文速递 ·

该研究提出RWKV-7 '鹅'，通过创新的状态演化方法和向量值门控，提升多语言任务中的序列建模性能与效率，超越传统变压器架构。

RWKV-7 '鹅'与表现丰富的动态状态演化

BriefGPT - AI 论文速递 ·

本研究提出Mamba-Shedder方法，解决了变换器架构在序列建模中的效率问题。通过去除SSR模型的选定组件，实现了模型压缩和计算开销减少，推理速度提升最高达1.4倍，且对模型性能影响最小。

Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models

BriefGPT - AI 论文速递 ·

对数记忆网络（LMNs）通过分层对数树结构，解决了传统序列建模模型在处理长序列时的计算和内存低效问题，提供了一种高效且可扩展的解决方案，显著提高了效率。

对数记忆网络（LMNs）：资源受限环境中的高效长程序列建模

BriefGPT - AI 论文速递 ·

突破性人工智能模型统一了基于状态空间序列的方法进行3D内容生成

DEV Community ·

本研究强调顺序上下文在行为建模中的重要性，提出了一种基于隐马尔可夫模型的序列建模框架，能够有效处理不平衡和稀缺数据。

基于集成学习的行为序列建模

BriefGPT - AI 论文速递 ·

本文探讨了如何利用序列建模和Transformer架构解决强化学习问题，改进波束搜索作为规划算法，展示了在长时间序列预测和模仿学习中的灵活性与高效性，并结合基于模型的算法，在稀疏奖励和长时间序列任务中取得优异表现。

大规模递归动作模型：xLSTM实现机器人任务的快速推理

BriefGPT - AI 论文速递 ·

北大林宙辰团队全新混合序列建模架构MixCon：性能远超Mamba

机器之心 ·

序列建模在多个领域中很重要，传统由RNNs和LSTMs主导，但转换器的出现改变了这一局面。尽管转换器性能优越，但存在复杂度和归纳偏差问题。状态空间模型（SSMs）成为有前景的替代方案，尤其是S4及其变种的出现。SSMs在视觉、音频、语言、医疗等领域应用广泛，并在多个数据集上表现出色。

充实的曼巴：RNN基础长上下文建模中的状态崩溃与状态能力

BriefGPT - AI 论文速递 ·

该工作提出了一种元学习算法，模拟了大型语言模型的能力，通过学习新的视觉概念而无需微调。该方法利用预训练特征提取器，并将元学习重新构造为对已知和未知标签的数据点进行序列建模。在8个元学习基准中，超过或与最先进算法相匹配，无需元训练或微调。

变色龙：一种在野外进行密集视觉预测的数据高效通用模型

BriefGPT - AI 论文速递 ·

Orchid是一种新颖的架构，通过整合一种新的数据相关卷积机制，平衡了表达能力和计算效率。它在保持效率和线性可扩展性的同时，捕捉了长距离依赖和上下文学习。Orchid在较小的模型尺寸和处理更长序列长度方面优于传统的基于注意力的架构，如BERT和Vision Transformers。这代表了序列建模中高效可扩展深度学习模型的重要进展。

Orchid：灵活和数据相关的序列建模卷积

BriefGPT - AI 论文速递 ·

研究人员提出了一种新的健康护理范式，将患者与医疗服务提供者之间的交互表示为事件流，并通过预测未来事件的任务来建模诊断和治疗选择等任务。他们使用MIMIC-IV数据集开发了一个名为MIMIC-SEQ的序列建模基准，研究其能力。

重症监护作为一个大的序列建模问题

BriefGPT - AI 论文速递 ·

本文介绍了使用序列建模解决强化学习问题的方法，使用Transformer架构建模轨迹分布并改造波束搜索作为规划算法。展示了该方法在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习方面的灵活性和高效性。同时，与基于模型的算法相结合，在稀疏奖励和长时间序列任务中表现出最先进的计划器。

基于 Transformer 的袋装奖励增强学习：面向实例级奖励重新分配的方法

BriefGPT - AI 论文速递 ·

本文介绍了一种元学习算法，通过学习新的视觉概念而无需微调，模拟了大型语言模型的能力。该方法利用预训练特征提取器，并将元学习重新构造为对已知标签和未知标签的数据点进行序列建模。在8个元学习基准中，超过或与最先进算法相匹配，无需元训练或微调。

元先验：自适应逆问题求解的元学习

BriefGPT - AI 论文速递 ·