MachineLearningMastery.com ·

时间序列中的Transformer与LSTM：哪种效果更好？

💡 原文英文，约2200词，阅读约需8分钟。

📝

内容提要

本文探讨了使用LSTM和Transformer模型进行单变量时间序列预测。通过分析芝加哥公共交通数据，展示了数据预处理、模型训练和评估的过程。结果表明，两种模型的预测性能相似，Transformer略优。建议尝试不同数据集以观察模型表现的差异。

🎯

关键要点

本文探讨了使用LSTM和Transformer模型进行单变量时间序列预测。
使用芝加哥公共交通数据进行数据预处理、模型训练和评估。
目标是比较LSTM和Transformer在时间序列预测中的表现。
数据集包含2001年以来的芝加哥公共交通乘客日记录。
过滤掉2020年1月1日以后的数据以避免后COVID影响。
将时间序列数据分为训练集和测试集，前80%为训练，后20%为测试。
将原始时间序列转换为带标签的序列以适应神经网络训练。
使用PyTorch库构建LSTM和Transformer模型。
训练模型并使用均方根误差(RMSE)和平均绝对误差(MAE)评估性能。
LSTM和Transformer的预测性能相似，Transformer略优。
建议尝试不同数据集以观察模型表现的差异。

❓

延伸问答

LSTM和Transformer在时间序列预测中的表现如何？

LSTM和Transformer的预测性能相似，Transformer略优。

使用什么数据集进行模型训练和评估？

使用芝加哥公共交通数据集，该数据集包含2001年以来的乘客日记录。

如何处理时间序列数据以适应模型训练？

将时间序列数据分为训练集和测试集，并转换为带标签的序列以适应神经网络训练。

模型训练使用了哪些评估指标？

使用均方根误差(RMSE)和平均绝对误差(MAE)评估模型性能。

为什么LSTM和Transformer的结果如此相似？

因为这两种模型在处理遵循一致模式的单变量时间序列时都有足够的能力，且架构复杂度较低。

文章对未来的研究有什么建议？

建议尝试不同数据集以观察模型表现的差异，并在不过滤后COVID数据的情况下重复实验。

🏷️

继续阅读

【效果逆天】零样本工业缺陷改变工业质检，颠覆YOLO系列模型效果
最近的零样本测试表明，利用多模态和Transformer大模型可以高效检测工业缺陷，如裂纹和污垢。这项技术实现了零样本检测，显著提高了项目交付速度，适用于...
二人对谈：有意义的人生需要锚定最高的善吗？
文章探讨了人生的意义与信仰的关系，认为个人需要超越世俗的存在（如神）作为人生的锚定。基督教被视为系统的神学体系，提供坚实的道德基础。批评现代社会的世俗化，...
Java News Roundup: OpenJDK, Oracle Critical Patches, Open Liberty, Testcontainers, IntelliJ IDEA
This week's Java roundup for April 20th, 2026, features news highlighting...
我用 Rust 写了一个从 0 到 1 学习 Claude Code Agent Harness 的项目
该项目名为 learn-claude-code-rs，旨在用 Rust 从零开始实现类似 Claude Code 的 agent harness。它包含2...
当 CGO 遇见 Zig：一种更优雅的折腾方式，对比 GCC 后端 - 曦远Code
在Windows环境下构建Go项目时，cgo需要C编译器。虽然可以通过Scoop安装GCC，但使用Zig作为编译器更高效，简化了配置并支持跨平台编译，提升...
云南之行：失望与惊喜
这次云南之行让我感受到父母在自由行中的新鲜与紧张。大理的苍山、崇圣寺三塔和古城游玩体验一般，商业化严重，管理混乱。相比之下，丽江古城环境更好，景点免费，玉...