Transformer作者菠萝哥重构了安全版龙虾IronClaw,使用Rust语言修复OpenClaw的安全漏洞。IronClaw通过四层防御机制保护用户凭证,确保数据隐私。该项目已开源,支持多平台,旨在实现用户自有AI的愿景。
摘要:本文提出X-VLA模型,通过SoftPrompt机制解决跨具身机器人学习中的异质性问题。该模型为不同数据源分配可学习嵌入,有效整合硬件配置差异,提升泛化能力。训练分两阶段:先在异构数据上预训练通用策略,再通过微调适配新具身形态。实验表明,X-VLA能在仅增加少量参数的情况下,显著提升模型对多样化机器人系统的适应能力,为具身智能的跨平台部署提供新思路。(149字)
北京大学与 DeepSeek-AI 的研究者提出 Engram,一种具有 O(1) 查找复杂度的可扩展条件记忆模块,通过将静态知识检索 Transformer 的早期层中剥离出来并与 MoE 形成互补,从而释放早期层用于更深层的推理计算,并在推理任务(BBH +5.0,ARC-Challenge +3.7)、代码与数学任务(HumanEval +3.0,MATH...
本文介绍了Transformer模型的结构与工作原理,包括输入嵌入、位置编码、自注意力机制和多头注意力等模块,强调了缩放点积注意力的重要性及其通过交叉熵损失函数进行训练的方法。
Transformer 是一种处理序列的模型,通过向量化表示基本单元(token)并利用自注意力机制捕捉元素间关系。其核心在于上下文建模,以生成更丰富的表示,适用于语言和时序数据。Transformer 架构包括编码器、解码器和编码器-解码器,分别用于理解、生成和翻译任务。
本文探讨了使用LSTM和Transformer模型进行单变量时间序列预测。通过分析芝加哥公共交通数据,展示了数据预处理、模型训练和评估的过程。结果表明,两种模型的预测性能相似,Transformer略优。建议尝试不同数据集以观察模型表现的差异。
华为推出的新架构Nexus,通过高阶注意力机制,克服了传统Transformer在复杂推理中的局限性。Nexus能够有效建模多跳关系,提升推理能力而不增加参数,特别在数学和科学任务中表现出色。该架构不仅适用于语言模型,还可扩展至视觉和多模态任务,凸显了架构设计的重要性。
谷歌在NeurIPS 2025上推出了新架构Titans和MIRAS,突破了Transformer在超长上下文处理中的限制。Titans结合了RNN的速度与Transformer的性能,能够动态更新记忆,扩展上下文至200万token。MIRAS则提供统一的序列建模框架,优化信息整合与记忆更新。这些新架构在处理长序列时优于现有模型,标志着AI领域的重要进展。
OpenAI研究科学家Łukasz Kaiser指出,AI并未减缓,而是从预训练转向推理模型。GPT-5.1是稳定性迭代,未来将重点发展多模态推理和家用机器人,AI将改变工作方式但不会消失。
Large language models (LLMs) are based on the transformer architecture, a complex deep neural network whose input is a sequence of token embeddings.
日本初创公司Sakana AI成立于2023年,估值达4000亿日元,成为日本最高估值的非上市企业。该公司由Transformer论文的作者创办,专注于自然启发的AI模型,推出了自动生成学术论文的“AI科学家”系统,受到广泛关注。
字节Seed的康炳易团队推出Depth Anything 3(DA3),该模型利用单一Transformer实现任意视图的3D重建,提升了相机定位和几何重建的准确性。通过简化架构和核心预测,DA3能够从单图、多图或视频中提取深度和光线信息,展现出强大的性能和广泛的应用潜力。
苹果的新研究表明,基于状态空间模型的Mamba在Agent任务中超越了Transformer,具备更高的效率和泛化能力。Mamba通过持续更新内部状态,计算量线性增长,支持流式处理且内存占用稳定。引入外部工具后,Mamba在复杂任务中的表现显著提升,显示出在Agent场景中有潜力取代Transformer。
Before we begin, let's make sure you're in the right place.
本文探讨了Transformer和CNN模型在恶意URL识别中的应用。由于识别恶意流量效率低下,神经网络模型成为解决方案。通过字符级嵌入将URL转化为向量序列,CNN和Transformer分别利用卷积和自注意力机制提取特征,实现正常与恶意流量的分类。
本文提出了一种多实例加密流量转换器(MIETT),通过双层注意力机制有效捕捉token级和数据包级特征。引入的预训练任务增强了模型对流量结构和包顺序的理解,实验结果表明MIETT在多个数据集上的分类性能优于现有方法。
2025全球机器学习技术大会将于10月16-17日在北京举行,汇聚顶尖学者与产业领袖。Lukasz Kaiser将分享推理模型的历史与未来,李建忠将探讨大模型技术对AI产业的影响。大会将深入讨论AI技术的最新发展与商业化挑战,推动AI生态的融合与创新。
完成下面两步后,将自动完成登录并继续当前操作。