小红花·文摘 - 小红花技术领袖俱乐部

定了，DeepSeek V4首发华为芯片！国产AI开始打破英伟达「垄断」

定了，DeepSeek V4首发华为芯片！国产AI开始打破英伟达「垄断」

爱范儿 ·

DeepSeek V4终于发布！打破最强闭源垄断，明确携手华为芯片

量子位 ·

最强开源模型 DeepSeek V4 发布，1M上下文，运行成本大降

最强开源模型 DeepSeek V4 发布，1M上下文，运行成本大降

小众软件 ·

读完 DeepSeek-V4 技术报告：这次最值得看的，不是“更大”，而是“更省”

读完 DeepSeek-V4 技术报告：这次最值得看的，不是“更大”，而是“更省”

清竹茶馆博客 ·

大模型架构的下半场

量子位 ·

从递归神经网络到变换器

从递归神经网络到变换器

Louis Aeilot's Blog ·

ICLR2026 | Ada-RefSR: 自适应隐式相关建模，开启“信而有证”的参考超分新范式

ICLR2026 | Ada-RefSR: 自适应隐式相关建模，开启“信而有证”的参考超分新范式

实时互动网 ·

Kimi新架构让马斯克叹服！17岁高中生作者一战成名

量子位 ·

LUCID Attention：给长上下文模型戴上降噪耳机

LUCID Attention：给长上下文模型戴上降噪耳机

Micropaper ·

Google Titans + MIRAS：终结 AI 健忘症，让模型拥有真正的长期记忆

Google Titans + MIRAS：终结 AI 健忘症，让模型拥有真正的长期记忆

Micropaper ·

阿里巴巴Qwen团队的论文《Gated Attention》提出在Transformer注意力机制中引入门控，以解决训练不稳定、注意力聚焦和长上下文表现不佳的问题。该方法通过选择性过滤信息，提升了模型性能和训练稳定性，已在Qwen3-Next模型中应用，效果显著。

Gated Attention Neurips Best Paper

Micropaper ·

2025年及以后：人工智能创新

2025年及以后：人工智能创新

InfoQ ·

nanobot-gpt

nanobot-gpt

plus studio ·

推理的物理学 – 深入探讨KV缓存和提示缓存

推理的物理学 – 深入探讨KV缓存和提示缓存

Shadow Walker 松烟阁 ·

小猫都能懂的大模型原理 4 - 大语言模型架构

小猫都能懂的大模型原理 4 - 大语言模型架构

UsubeniFantasy ·

Transformer模型通过词向量理解语言，解决多义性和同音异义词问题。它利用注意力机制和前馈层处理信息，确保AI理解上下文。提示词注入可操控AI，但需绕过输入输出过滤，方法包括角色扮演和多语言诱导。

AI提示词注入

FreeBuf网络安全行业门户 ·

如果你这篇注意力机制的文章都看不懂，就...可以重新读小学了

如果你这篇注意力机制的文章都看不懂，就...可以重新读小学了

dotNET跨平台 ·

使用PyTorch从零开始构建变换器模型（10天迷你课程）

使用PyTorch从零开始构建变换器模型（10天迷你课程）

MachineLearningMastery.com ·

$一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略：将粗粒度的token压缩与细粒度的token选择相结合$

一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略：将粗粒度的token压缩与细粒度的token选择相结合

结构之法算法之道 ·

大型语言模型的历史

De Moivre–Laplace Theorem ·