小红花·文摘

Transformer作者重造龙虾，Rust搓出钢铁版，告别OpenClaw裸奔

量子位 ·

摘要：本文提出X-VLA模型，通过SoftPrompt机制解决跨具身机器人学习中的异质性问题。该模型为不同数据源分配可学习嵌入，有效整合硬件配置差异，提升泛化能力。训练分两阶段：先在异构数据上预训练通用策略，再通过微调适配新具身形态。实验表明，X-VLA能在仅增加少量参数的情况下，显著提升模型对多样化机器人系统的适应能力，为具身智能的跨平台部署提供新思路。（149字）

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA：VLM做多模态感知，DiT-style做动作生成

结构之法算法之道 ·

挑战Transformer，前OpenAI研究VP宣布创业，拟融资10亿美元

机器之心 ·

北京大学与 DeepSeek-AI 的研究者提出 Engram，一种具有 O(1) 查找复杂度的可扩展条件记忆模块，通过将静态知识检索 Transformer 的早期层中剥离出来并与 MoE 形成互补，从而释放早期层用于更深层的推理计算，并在推理任务（BBH +5.0，ARC-Challenge +3.7）、代码与数学任务（HumanEval +3.0，MATH...

AI 论文周报丨Transformer前沿研究专题导读，解析结构稀疏化、记忆机制与推理组织的最新进展

HyperAI超神经 ·

清华姚班校友刘壮团队再发力，无需归一化的Transformer性能进化

机器之心 ·

Sebastian Raschka 2026预测：Transformer统治依旧，但扩散模型正悄然崛起

机器之心 ·

最后一遍学习Transformer

plus studio ·

Transformer 是一种处理序列的模型，通过向量化表示基本单元（token）并利用自注意力机制捕捉元素间关系。其核心在于上下文建模，以生成更丰富的表示，适用于语言和时序数据。Transformer 架构包括编码器、解码器和编码器-解码器，分别用于理解、生成和翻译任务。

Transformer 个人入门

xxxx的个人博客 ·

时间序列中的Transformer与LSTM：哪种效果更好？

MachineLearningMastery.com ·

华为推出的新架构Nexus，通过高阶注意力机制，克服了传统Transformer在复杂推理中的局限性。Nexus能够有效建模多跳关系，提升推理能力而不增加参数，特别在数学和科学任务中表现出色。该架构不仅适用于语言模型，还可扩展至视觉和多模态任务，凸显了架构设计的重要性。

华为新架构砍了Transformer大动脉！任意模型推理能力原地飙升

量子位 ·

谷歌在NeurIPS 2025上推出了新架构Titans和MIRAS，突破了Transformer在超长上下文处理中的限制。Titans结合了RNN的速度与Transformer的性能，能够动态更新记忆，扩展上下文至200万token。MIRAS则提供统一的序列建模框架，优化信息整合与记忆更新。这些新架构在处理长序列时优于现有模型，标志着AI领域的重要进展。

谷歌新架构突破Transformer超长上下文瓶颈！Hinton灵魂拷问：后悔Open吗？

量子位 ·

OpenAI研究科学家Łukasz Kaiser指出，AI并未减缓，而是从预训练转向推理模型。GPT-5.1是稳定性迭代，未来将重点发展多模态推理和家用机器人，AI将改变工作方式但不会消失。

Transformer作者爆料GPT-5.1内幕！OpenAI内部命名规则变乱了

量子位 ·

Large language models (LLMs) are based on the transformer architecture, a complex deep neural network whose input is a sequence of token embeddings.

The Journey of a Token: What Really Happens Inside a Transformer

MachineLearningMastery.com ·

日本初创公司Sakana AI成立于2023年，估值达4000亿日元，成为日本最高估值的非上市企业。该公司由Transformer论文的作者创办，专注于自然启发的AI模型，推出了自动生成学术论文的“AI科学家”系统，受到广泛关注。

“日本版OpenAI”创下估值新高！Transformer八子之一创办，老黄也投了

量子位 ·

字节Seed的康炳易团队推出Depth Anything 3（DA3），该模型利用单一Transformer实现任意视图的3D重建，提升了相机定位和几何重建的准确性。通过简化架构和核心预测，DA3能够从单图、多图或视频中提取深度和光线信息，展现出强大的性能和广泛的应用潜力。

谢赛宁盛赞字节Seed新研究！单Transformer搞定任意视图3D重建

量子位 ·

苹果的新研究表明，基于状态空间模型的Mamba在Agent任务中超越了Transformer，具备更高的效率和泛化能力。Mamba通过持续更新内部状态，计算量线性增长，支持流式处理且内存占用稳定。引入外部工具后，Mamba在复杂任务中的表现显著提升，显示出在Agent场景中有潜力取代Transformer。