小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

自2022年底发布以来,OpenAI的ChatGPT迅速普及。基于Transformer架构的大语言模型(LLM)展现出强大能力,尤其在文本生成和教学中表现优异,但仍需人类引导。未来,LLM可能面临训练数据劣化的瓶颈,并与人类智能存在本质差异。

三年LLM:过去和未来

Yi's Blog
Yi's Blog · 2026-03-28T05:00:00Z
独占自注意力

本文介绍了一种名为独占自注意力(XSA)的方法,旨在提升Transformer的序列建模性能。XSA通过限制注意力仅捕捉与令牌自身值向量正交的信息,从而改善上下文建模。在标准语言建模任务中,XSA在不同模型规模上均优于自注意力(SA),且随着序列长度增加,性能提升更为显著。

独占自注意力

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-25T00:00:00Z
Luma Labs推出Uni-1:一种在生成图像前能够推理意图的自回归Transformer模型

Luma Labs推出的Uni-1是一种自回归Transformer架构的图像模型,能够在生成前进行推理,提升文本与图像的理解与生成能力。该模型在RISEBench和ODinW-13基准测试中表现优异,展现出在视觉认知和空间逻辑处理方面的优势。Uni-1支持简单英语指令,定价约为每张0.10美元,未来将推出API接口。

Luma Labs推出Uni-1:一种在生成图像前能够推理意图的自回归Transformer模型

实时互动网
实时互动网 · 2026-03-24T02:46:57Z
亚马逊正在制造一款Alexa手机

亚马逊计划推出一款名为“Transformer”的新智能手机,重点围绕其AI助手Alexa,设计灵感来自极简主义的Light Phone,可能采用迷你应用程序而非传统应用商店。尚无发布日期或价格信息。

亚马逊正在制造一款Alexa手机

The Verge
The Verge · 2026-03-20T13:42:51Z
Transformer作者重造龙虾,Rust搓出钢铁版,告别OpenClaw裸奔

Transformer作者菠萝哥重构了安全版龙虾IronClaw,使用Rust语言修复OpenClaw的安全漏洞。IronClaw通过四层防御机制保护用户凭证,确保数据隐私。该项目已开源,支持多平台,旨在实现用户自有AI的愿景。

Transformer作者重造龙虾,Rust搓出钢铁版,告别OpenClaw裸奔

量子位
量子位 · 2026-03-06T09:56:11Z
Google Titans + MIRAS:终结 AI 健忘症,让模型拥有真正的长期记忆

2017年,Transformer架构引入了注意力机制,但计算成本随着序列长度增加而显著上升。Google Research推出Titans和MIRAS架构,结合RNN的速度与Transformer的准确性,支持超长上下文处理。Titans模仿人脑记忆,采用短期、长期和持久记忆,通过“惊喜度量”选择性更新信息。MIRAS统一序列建模方法,拓展了设计空间,推动AI记忆系统的发展。

Google Titans + MIRAS:终结 AI 健忘症,让模型拥有真正的长期记忆

Micropaper
Micropaper · 2026-02-28T21:30:00Z

阿里巴巴Qwen团队的论文《Gated Attention》提出在Transformer注意力机制中引入门控,以解决训练不稳定、注意力聚焦和长上下文表现不佳的问题。该方法通过选择性过滤信息,提升了模型性能和训练稳定性,已在Qwen3-Next模型中应用,效果显著。

Gated Attention Neurips Best Paper

Micropaper
Micropaper · 2026-02-28T00:00:00Z
X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

本文介绍了一种新型机器人学习模型X-VLA,采用软提示技术以提升跨具身机器人学习的适应性和泛化能力。通过引入可学习的嵌入,X-VLA有效解决了不同硬件和任务环境下的异质性问题,增强了模型在多样化数据集上的表现。该模型在多个基准测试中表现优异,展现出在灵巧操作和适应新领域方面的强大能力。

X-VLA——基于Soft Prompt的Transformer编码器练就可扩展的跨本体VLA:VLM做多模态感知,DiT-style做动作生成

结构之法 算法之道
结构之法 算法之道 · 2026-02-21T05:00:30Z
act笔记

ACT通过将动作打包,能够一次性预测未来k个时间步的动作序列,有效减少误差累积。它结合超低成本的遥操作平台、CVAE模型和Transformer架构,提升了机器人的控制精度和动作平滑度。

act笔记

plus studio
plus studio · 2026-02-21T00:00:00Z
挑战Transformer,前OpenAI研究VP宣布创业,拟融资10亿美元

文章讨论了人工智能的应用与发展,强调其在各领域的潜力、影响力及对工作方式的变革,提升效率并推动创新。

挑战Transformer,前OpenAI研究VP宣布创业,拟融资10亿美元

机器之心
机器之心 · 2026-01-31T12:26:32Z
AI入门系列 介绍大语言模型

大语言模型(LLM)经历了从统计模型到神经网络的演变,2017年Transformer架构的出现推动了其发展。GPT系列模型展现了强大的生成能力,2023-2024年多模态与智能体的崛起标志着AI的进一步进化。未来,编程将向人机协作转变,AI将在任务执行中扮演更重要的角色。

AI入门系列 介绍大语言模型

浮云翩迁之间
浮云翩迁之间 · 2026-01-24T05:40:56Z
AI入门系列 介绍大语言模型

大语言模型(LLM)经历了从统计模型到神经网络的演变,2017年Transformer架构的出现推动了其发展。GPT系列模型展示了理解与生成的能力,2023-2024年多模态与智能体的兴起标志着AI的进一步进化。未来编程将转向人机协作,大模型技术虽有局限,但仍是通向AGI的重要路径。

AI入门系列 介绍大语言模型

浮云翩迁之间
浮云翩迁之间 · 2026-01-24T05:40:56Z
AI 论文周报丨Transformer前沿研究专题导读,解析结构稀疏化、记忆机制与推理组织的最新进展

过去八年,Transformer架构深刻影响了人工智能研究,广泛应用于自然语言处理和计算机视觉等领域。工业界和高校在规模化与理论研究方面不断推进,研究呈现出高度分化与快速演进。HyperAI超神经官网推出“最新论文”板块,推荐了五篇关于Transformer的热门论文,展示了多个研究团队的创新成果。

AI 论文周报丨Transformer前沿研究专题导读,解析结构稀疏化、记忆机制与推理组织的最新进展

HyperAI超神经
HyperAI超神经 · 2026-01-23T06:12:02Z
清华姚班校友刘壮团队再发力,无需归一化的Transformer性能进化

抱歉,提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

清华姚班校友刘壮团队再发力,无需归一化的Transformer性能进化

机器之心
机器之心 · 2026-01-22T11:13:23Z
代码无法编译、数据完全隐藏,这一波操作到底是不是“假开源”?拆解Grok架构的虚与实,虽然无法直接复刻竞品,但给国内大厂指明了进化新方向|X 马斯克 推荐算法 假开源 算法细节 分析

马斯克开源了X的推荐算法,但仅部分代码,核心的Grok Transformer未公开,此次开源被视为“假开源”,缺乏透明度和后续更新。推荐算法基于单一Transformer模型,可能影响高薪调参工程师的工作。马斯克的开源意图在于提供监管窗口,尽管代码无法复现,仍为推荐算法的进步指明方向。

代码无法编译、数据完全隐藏,这一波操作到底是不是“假开源”?拆解Grok架构的虚与实,虽然无法直接复刻竞品,但给国内大厂指明了进化新方向|X 马斯克 推荐算法 假开源 算法细节 分析

硕鼠的博客站
硕鼠的博客站 · 2026-01-22T00:46:00Z
刚刚,马斯克开源 𝕏 平台推荐算法

马斯克宣布开源𝕏(原Twitter)的推荐算法,采用与xAI的Grok模型相同的Transformer架构,成为首个透明的社交平台。新算法基于用户交互历史,分为“召回”和“评分”两个阶段,确保内容的相关性和多样性,并将根据反馈持续优化。

刚刚,马斯克开源 𝕏 平台推荐算法

爱范儿
爱范儿 · 2026-01-20T09:41:05Z
NVIDIA发布PersonaPlex-7B-v1:专为自然全双工对话设计的实时语音到语音模型

NVIDIA 发布了 PersonaPlex-7B-v1,这是一个全双工语音对话模型,采用单一 Transformer 架构,支持自然语音交互、插话和重叠对话。该模型通过双流配置处理用户音频和智能体语音,结合真实与合成对话进行训练,评估结果显示其在对话动态和任务遵守方面表现优异。

NVIDIA发布PersonaPlex-7B-v1:专为自然全双工对话设计的实时语音到语音模型

实时互动网
实时互动网 · 2026-01-19T02:55:40Z
[特殊字符]1篇搞懂AI通识:大白话拆解核心点

这篇文章介绍了人工智能(AI)的基本概念、核心方法和应用。AI的目标是让机器自主学习和决策,核心方法包括机器学习、深度学习和强化学习。文章还讨论了神经网络和Transformer架构在文本处理中的重要性,以及通过量化和微调等优化技术提升AI模型的效率和适应性。整体上,文章帮助读者理解AI的基本逻辑和实际价值。

[特殊字符]1篇搞懂AI通识:大白话拆解核心点

京东科技开发者
京东科技开发者 · 2026-01-16T07:42:10Z
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

抱歉,您提供的文本内容过于简短,无法进行有效的总结。请提供更多信息或更长的文本。

Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起

机器之心
机器之心 · 2026-01-14T06:41:22Z

英伟达与多所高校合作推出TTT-E2E方法,能将128K上下文处理速度提升2.7倍,动态压缩记忆,避免额外缓存。该技术基于标准Transformer,支持持续学习,适应测试需求。尽管在细节回忆任务中表现不如全注意力模型,但推理延迟稳定,生成文本质量高。

不用额外缓存!英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍

量子位
量子位 · 2026-01-14T06:09:53Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码