小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
定了,DeepSeek V4首发华为芯片!国产AI开始打破英伟达「垄断」

DeepSeek发布了V4系列模型,包括V4-Pro和V4-Flash,参数量分别为1.6T和284B,支持百万token上下文。V4-Pro在编程任务中表现优异,超越Sonnet和Opus系列。新模型采用改进的注意力机制和推理模式,提升了效率和准确性,并已开源,支持国产芯片,标志着国产AI技术的进步。

定了,DeepSeek V4首发华为芯片!国产AI开始打破英伟达「垄断」

爱范儿
爱范儿 · 2026-04-24T06:15:26Z
DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片

DeepSeek-V4正式上线,分为V4-Pro和V4-Flash两个版本,性能领先于同类产品。V4-Pro适合复杂任务,V4-Flash为经济版,适合简单任务。新模型支持1M上下文,采用创新的注意力机制,显著降低计算需求。API服务已更新,旧模型将在三个月后停用。

DeepSeek V4终于发布!打破最强闭源垄断,明确携手华为芯片

量子位
量子位 · 2026-04-24T04:17:45Z
最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

DeepSeek V4 发布,具备 1M 上下文和显著提升的代码能力,推理性能接近顶尖模型。新注意力机制降低计算需求,支持更多请求。V4 Pro 价格上涨,但在知识和推理任务上表现优异。现已上线官网和 API,无法自行部署。

最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

小众软件
小众软件 · 2026-04-24T04:05:20Z
读完 DeepSeek-V4 技术报告:这次最值得看的,不是“更大”,而是“更省”

DeepSeek-V4技术报告强调通过改进注意力机制和优化器,提高超长上下文处理效率,能够高效处理1M上下文,降低计算和缓存成本。模型在中文写作和白领任务中表现良好,但在复杂任务上仍需提升。整体目标是解决长上下文的成本问题,提供完整的技术方案。

读完 DeepSeek-V4 技术报告:这次最值得看的,不是“更大”,而是“更省”

清竹茶馆博客
清竹茶馆博客 · 2026-04-24T00:01:21Z
大模型架构的下半场

华中科技大学的研究团队提出了Flash Depth Attention和混合深度注意力(MoDA),旨在改善深度学习模型中层间的通信能力。新方法通过引入注意力机制,提升信息流动的质量,有望推动大模型架构的发展,提升模型性能。

大模型架构的下半场

量子位
量子位 · 2026-04-19T10:12:10Z
从递归神经网络到变换器

自然语言处理经历了巨大的演变,传统的序列到序列模型依赖递归神经网络(RNN),但在处理长序列时存在信息瓶颈。为了解决这一问题,引入了注意力机制,使解码器能够动态关注输入序列的不同部分。现代的Transformer模型通过堆叠注意力层,能够高效处理复杂的序列数据,广泛应用于文本生成和图像处理等领域。

从递归神经网络到变换器

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-04-07T22:30:09Z
ICLR2026 | Ada-RefSR: 自适应隐式相关建模,开启“信而有证”的参考超分新范式

本文提出了一种新型超分辨率模型Ada-RefSR,旨在解决单步扩散模型中的幻觉问题。通过引入注意力机制和隐式相关性建模,显著提升了图像细节和质量。该方法在多个基准测试中表现优异,具备高效推理和鲁棒性,适合移动设备应用。

ICLR2026 | Ada-RefSR: 自适应隐式相关建模,开启“信而有证”的参考超分新范式

实时互动网
实时互动网 · 2026-03-19T02:30:10Z
Kimi新架构让马斯克叹服!17岁高中生作者一战成名

17岁高中生陈广宇与Kimi团队提出的Attention Residuals技术,通过“旋转90度”改进注意力机制,提升模型训练效率25%。该论文引起马斯克和Karpathy的关注,展示了深度学习的新思路。

Kimi新架构让马斯克叹服!17岁高中生作者一战成名

量子位
量子位 · 2026-03-17T06:51:58Z
LUCID Attention:给长上下文模型戴上降噪耳机

LUCID Attention 提出了一种新型注意力机制,通过去相关化 key 向量,解决了长上下文模型中的噪声和学习困境,提高了信息检索精度,计算开销几乎不变,适用于长上下文任务。

LUCID Attention:给长上下文模型戴上降噪耳机

Micropaper
Micropaper · 2026-03-02T13:30:00Z
Google Titans + MIRAS:终结 AI 健忘症,让模型拥有真正的长期记忆

2017年,Transformer架构引入了注意力机制,但计算成本随着序列长度增加而显著上升。Google Research推出Titans和MIRAS架构,结合RNN的速度与Transformer的准确性,支持超长上下文处理。Titans模仿人脑记忆,采用短期、长期和持久记忆,通过“惊喜度量”选择性更新信息。MIRAS统一序列建模方法,拓展了设计空间,推动AI记忆系统的发展。

Google Titans + MIRAS:终结 AI 健忘症,让模型拥有真正的长期记忆

Micropaper
Micropaper · 2026-02-28T21:30:00Z

阿里巴巴Qwen团队的论文《Gated Attention》提出在Transformer注意力机制中引入门控,以解决训练不稳定、注意力聚焦和长上下文表现不佳的问题。该方法通过选择性过滤信息,提升了模型性能和训练稳定性,已在Qwen3-Next模型中应用,效果显著。

Gated Attention Neurips Best Paper

Micropaper
Micropaper · 2026-02-28T00:00:00Z
2025年及以后:人工智能创新

Tejas Kumar在IBM担任开发者关系工程师,讨论了2025年的AI创新。他指出,AI的历史可以追溯到1906年的马尔可夫链,近年来的进展包括生成式AI和深度学习,尤其是2017年提出的“注意力机制”论文为ChatGPT奠定了基础。2025年被称为“代理年”,届时AI代理将能够自主决策,简化用户体验,可能不再需要传统网页界面。

2025年及以后:人工智能创新

InfoQ
InfoQ · 2026-02-23T09:13:00Z
nanobot-gpt

本文介绍了GPT模型的配置和实现细节,包括序列长度、词汇表大小、层数和注意力机制。重点讨论了RMSNorm归一化方法、旋转嵌入的应用、注意力层的实现,以及模型的初始化和优化策略。最后,介绍了生成文本时的采样方法,如Top-K采样和温度调整。

nanobot-gpt

plus studio
plus studio · 2026-01-18T00:00:00Z
推理的物理学 – 深入探讨KV缓存和提示缓存

本文分析了KV缓存优化,探讨了DeepSeek的MLA架构如何演变为vLLM和SGLang,强调推理效率在生成AI商业化中的重要性。KV缓存管理成为主要瓶颈,文章还讨论了不同注意力机制对内存带宽的影响,以及低秩压缩和系统软件管理的重要性。

推理的物理学 – 深入探讨KV缓存和提示缓存

Shadow Walker 松烟阁
Shadow Walker 松烟阁 · 2025-12-14T13:46:59Z
小猫都能懂的大模型原理 4 - 大语言模型架构

文章介绍了大语言模型的结构与训练过程。模型利用注意力机制和前馈神经网络处理数据,通过归一化和残差连接提升稳定性。训练时,模型通过反向传播调整参数,采用梯度下降算法和批量训练优化性能。尽管不同模型实现各异,但均表明语言可用数学方法处理。

小猫都能懂的大模型原理 4 - 大语言模型架构

UsubeniFantasy
UsubeniFantasy · 2025-12-04T02:16:52Z

Transformer模型通过词向量理解语言,解决多义性和同音异义词问题。它利用注意力机制和前馈层处理信息,确保AI理解上下文。提示词注入可操控AI,但需绕过输入输出过滤,方法包括角色扮演和多语言诱导。

AI提示词注入

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-06T12:12:53Z
如果你这篇注意力机制的文章都看不懂,就...可以重新读小学了

本文通过图书馆找书的例子解释了注意力机制:用户提出查询(Q),匹配书籍标签(K),进行快速评分(QKᵀ),调整分数(/√d),最后通过Softmax确定关注重点。该机制也应用于人工智能的语言理解。

如果你这篇注意力机制的文章都看不懂,就...可以重新读小学了

dotNET跨平台
dotNET跨平台 · 2025-10-27T00:01:26Z
使用PyTorch从零开始构建变换器模型(10天迷你课程)

本文介绍了如何使用PyTorch从零开始构建变换器模型的10天迷你课程,涵盖数据收集、分词器训练、位置编码和注意力机制等关键组件,适合有一定编程和机器学习基础的开发者。每节课约30分钟,通过实践,学员将掌握构建和训练变换器模型的技能。

使用PyTorch从零开始构建变换器模型(10天迷你课程)

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-12T03:45:31Z
一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合

DeepSeek R1引起关注,研究者提出新注意力机制NSA,旨在提高长上下文处理效率。NSA结合硬件优化与可训练设计,克服现有稀疏注意力方法的局限性,提升模型性能与训练效率。

一文通透Native Sparse Attention(简称NSA)——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合

结构之法 算法之道
结构之法 算法之道 · 2025-10-03T12:43:44Z
大型语言模型的历史

大型语言模型(LLMs)依赖注意力机制,推动自然语言处理的发展。2017年,谷歌提出的Transformer架构完全基于注意力机制,取代传统递归神经网络,显著提高训练效率。随后,OpenAI的GPT系列通过生成预训练和任务特定微调,进一步提升模型性能。

大型语言模型的历史

De Moivre–Laplace Theorem
De Moivre–Laplace Theorem · 2025-10-01T04:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码