谷歌推出的新架构Titans结合了注意力机制和长期记忆模块,能够处理超过200万tokens的上下文,性能超越Transformer和GPT-4。Titans通过三种变体(MAC、MAG、MAL)优化记忆管理,在语言建模和时序预测等任务中表现优异,开辟了新的研究方向。
本研究提出了xPatch模型,旨在解决变换器模型在时序预测中未能充分利用时间关系的问题。xPatch采用双流架构,结合季节-趋势分解模块、MLP线性流和CNN非线性流,显著提升了预测性能并有效防止过拟合。
AIxiv报道了Salesforce、新加坡国立大学和香港科技大学(广州)共同开发的时序预测模型Moirai-MoE。该模型利用稀疏混合专家技术,在39个数据集上显著提升了预测性能,克服了传统模型在多样化时序数据上的局限性,同时在训练效率和推理速度上也表现优异。
本文提出了一种新的扩散模型训练方法,结合时间动态信息以增强时序预测能力。通过DiffDA数据同化方法,生成与观测一致的全球大气同化数据,并展示其在偏微分方程求解中的应用潜力。此外,研究探讨了无训练条件扩散模型在随机微分方程建模中的优势,显著提高了预测效率和准确性。
本文介绍了SSDNet,一种结合Transformer架构和状态空间模型的深度学习方法,用于时序预测,能够提供准确且可解释的趋势和季节性预测。SSDNet在多个数据集上表现优异,超越了现有方法。同时,文章探讨了状态空间模型的最新研究进展及其在机器学习中的应用,强调未来研究方向。
该研究探讨了语言模型在时序预测任务中的应用,发现其性能不佳且计算量大。研究团队提出了三种消融方法来评估语言模型的影响,发现这些方法在大多数情况下优于基于语言模型的方法。预训练语言模型对时序预测的帮助有限,基于语言模型的方法的计算强度并不能提升性能。总之,语言模型在时序预测任务中的应用有待改进。
本文介绍了多种基于状态空间模型(SSM)的时序预测模型,如S-Mamba和D-Mamba,强调其在节省GPU内存和训练时间的同时提升性能。Mamba模型在语言、音频和基因组等领域表现优异,尤其在处理长序列时显著快于Transformer。此外,研究还提出了SegMamba、Graph-Mamba和PointMamba等新模型,分别在医学图像分割、图网络预测和点云分析中取得了先进性能,展示了SSM在多种任务中的潜力。
完成下面两步后,将自动完成登录并继续当前操作。