小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI

北京大学与 DeepSeek-AI 的研究者提出 Engram,一种具有 O(1) 查找复杂度的可扩展条件记忆模块,通过将静态知识检索 Transformer 的早期层中剥离出来并与 MoE 形成互补,从而释放早期层用于更深层的推理计算,并在推理任务(BBH +5.0,ARC-Challenge +3.7)、代码与数学任务(HumanEval +3.0,MATH...

AI 论文周报丨Transformer前沿研究专题导读,解析结构稀疏化、记忆机制与推理组织的最新进展

HyperAI超神经
HyperAI超神经 · 2026-01-23T06:12:02Z

清华姚班校友刘壮团队再发力,无需归一化的Transformer性能进化

机器之心
机器之心 · 2026-01-22T11:13:23Z

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

机器之心
机器之心 · 2026-01-14T06:41:22Z
最后一遍学习Transformer

本文介绍了Transformer模型的结构与工作原理,包括输入嵌入、位置编码、自注意力机制和多头注意力等模块,强调了缩放点积注意力的重要性及其通过交叉熵损失函数进行训练的方法。

最后一遍学习Transformer

plus studio
plus studio · 2026-01-02T00:00:00Z

Transformer 是一种处理序列的模型,通过向量化表示基本单元(token)并利用自注意力机制捕捉元素间关系。其核心在于上下文建模,以生成更丰富的表示,适用于语言和时序数据。Transformer 架构包括编码器、解码器和编码器-解码器,分别用于理解、生成和翻译任务。

Transformer 个人入门

xxxx的个人博客
xxxx的个人博客 · 2025-12-18T14:35:32Z
时间序列中的Transformer与LSTM:哪种效果更好?

本文探讨了使用LSTM和Transformer模型进行单变量时间序列预测。通过分析芝加哥公共交通数据,展示了数据预处理、模型训练和评估的过程。结果表明,两种模型的预测性能相似,Transformer略优。建议尝试不同数据集以观察模型表现的差异。

时间序列中的Transformer与LSTM:哪种效果更好?

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-15T11:00:36Z

华为推出的新架构Nexus,通过高阶注意力机制,克服了传统Transformer在复杂推理中的局限性。Nexus能够有效建模多跳关系,提升推理能力而不增加参数,特别在数学和科学任务中表现出色。该架构不仅适用于语言模型,还可扩展至视觉和多模态任务,凸显了架构设计的重要性。

华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升

量子位
量子位 · 2025-12-05T17:40:31Z

谷歌在NeurIPS 2025上推出了新架构Titans和MIRAS,突破了Transformer在超长上下文处理中的限制。Titans结合了RNN的速度与Transformer的性能,能够动态更新记忆,扩展上下文至200万token。MIRAS则提供统一的序列建模框架,优化信息整合与记忆更新。这些新架构在处理长序列时优于现有模型,标志着AI领域的重要进展。

谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?

量子位
量子位 · 2025-12-05T10:48:55Z

OpenAI研究科学家Łukasz Kaiser指出,AI并未减缓,而是从预训练转向推理模型。GPT-5.1是稳定性迭代,未来将重点发展多模态推理和家用机器人,AI将改变工作方式但不会消失。

Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了

量子位
量子位 · 2025-11-30T05:18:27Z

Large language models (LLMs) are based on the transformer architecture, a complex deep neural network whose input is a sequence of token embeddings.

The Journey of a Token: What Really Happens Inside a Transformer

MachineLearningMastery.com
MachineLearningMastery.com · 2025-11-26T14:24:54Z

日本初创公司Sakana AI成立于2023年,估值达4000亿日元,成为日本最高估值的非上市企业。该公司由Transformer论文的作者创办,专注于自然启发的AI模型,推出了自动生成学术论文的“AI科学家”系统,受到广泛关注。

“日本版OpenAI”创下估值新高!Transformer八子之一创办,老黄也投了

量子位
量子位 · 2025-11-19T06:38:51Z

字节Seed的康炳易团队推出Depth Anything 3(DA3),该模型利用单一Transformer实现任意视图的3D重建,提升了相机定位和几何重建的准确性。通过简化架构和核心预测,DA3能够从单图、多图或视频中提取深度和光线信息,展现出强大的性能和广泛的应用潜力。

谢赛宁盛赞字节Seed新研究!单Transformer搞定任意视图3D重建

量子位
量子位 · 2025-11-18T05:08:07Z

苹果的新研究表明,基于状态空间模型的Mamba在Agent任务中超越了Transformer,具备更高的效率和泛化能力。Mamba通过持续更新内部状态,计算量线性增长,支持流式处理且内存占用稳定。引入外部工具后,Mamba在复杂任务中的表现显著提升,显示出在Agent场景中有潜力取代Transformer。

苹果AI选Mamba:Agent任务比Transformer更好

量子位
量子位 · 2025-10-21T06:01:35Z

Before we begin, let's make sure you're in the right place.

Building Transformer Models from Scratch with PyTorch (10-day Mini-Course)

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-12T03:45:31Z

本文探讨了Transformer和CNN模型在恶意URL识别中的应用。由于识别恶意流量效率低下,神经网络模型成为解决方案。通过字符级嵌入将URL转化为向量序列,CNN和Transformer分别利用卷积和自注意力机制提取特征,实现正常与恶意流量的分类。

Transformer与CNN在恶意URL路径识别中的实践探索

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-09-20T04:47:53Z

本文提出了一种多实例加密流量转换器(MIETT),通过双层注意力机制有效捕捉token级和数据包级特征。引入的预训练任务增强了模型对流量结构和包顺序的理解,实验结果表明MIETT在多个数据集上的分类性能优于现有方法。

南京大学 | MIETT:面向加密流量分类的多实例Transformer模型

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-09-18T10:53:00Z

2025全球机器学习技术大会将于10月16-17日在北京举行,汇聚顶尖学者与产业领袖。Lukasz Kaiser将分享推理模型的历史与未来,李建忠将探讨大模型技术对AI产业的影响。大会将深入讨论AI技术的最新发展与商业化挑战,推动AI生态的融合与创新。

GPT-5与Transformer共同发明人Lukasz Kaiser重磅加盟,2025 全球机器学习技术大会全日程官宣!

量子位
量子位 · 2025-09-18T07:53:53Z
优化Hugging Face Transformer管道的5个技巧

Hugging Face提供了五个优化Transformers Pipelines的技巧:1. 批量推理以提高GPU利用率;2. 使用低精度和量化减少内存;3. 选择高效模型架构加快推理;4. 利用缓存重用计算结果;5. 通过Optimum降低延迟。这些方法能显著提升AI应用性能。

优化Hugging Face Transformer管道的5个技巧

KDnuggets
KDnuggets · 2025-09-12T12:00:58Z

Transformer的发明者Vaswani认为闭源AI阻碍科学探索,创立Essential AI专注基础研究,倡导开源以推动AI在教育和医疗等领域的应用,反对依赖商业化的独角兽公司。

Transformer作者:DeepSeek才有搞头,OpenAI指望不上了

量子位
量子位 · 2025-09-12T03:07:15Z

Learn how pgstream v0.8.1 transforms hstore data and improves snapshot experience with roles snapshotting and excludedtables option

Ahmet Gedemenli: pgstream v0.8.1: hstore transformer, roles snapshotting, CLI improvements and more

Planet PostgreSQL
Planet PostgreSQL · 2025-09-10T14:15:35Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码