小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

智谱AI推出新模型GLM-4.7-Flash,参数300亿,激活仅30亿,适用于本地编程和智能助手。该模型在代码修复测试中表现优异,支持200K上下文窗口,兼容多平台,并可在苹果M5上运行。API免费开放,具备创意写作和翻译功能。

智谱新模型也用DeepSeek的MLA,苹果M5就能跑

量子位
量子位 · 2026-01-20T09:19:49Z
一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA):让q跟最相关的k/v做注意力计算,以降低MLA的计算量

DeepSeek-V3.2引入了稀疏注意力机制(DSA),优化了长文本处理的效率。通过闪电索引器和细粒度选择机制,DSA减少了计算量并提升了模型性能。该版本在持续预训练和后训练中结合专家蒸馏和强化学习,显著提高了推理效率和稳定性。

一文通透DeepSeek-V3.2——核心在于DeepSeek Sparse Attention(简称DSA):让q跟最相关的k/v做注意力计算,以降低MLA的计算量

结构之法 算法之道
结构之法 算法之道 · 2025-12-05T07:49:14Z

在文章《Transformer升级之路:20、MLA好在哪里?(上)》中,我们对MLA相比常见MHA、GQA、MQA的一些变化分别做了消融实验,其中的变化包括“增大head_dims”、“Par...

Transformer升级之路:21、MLA好在哪里?(下)

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-07-10T02:28:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

机器之心
机器之心 · 2025-07-04T02:23:27Z
多头潜在注意力(MLA)简介

多头潜在注意力(MLA)是一种新型注意力机制,旨在降低计算成本和内存使用。通过低秩近似,将大矩阵分解为两个小矩阵,从而提高推理速度。MLA在推理时使用共享的压缩矩阵优化计算,且在模型质量和推理速度上优于传统多头注意力。

多头潜在注意力(MLA)简介

MachineLearningMastery.com
MachineLearningMastery.com · 2025-06-23T19:56:04Z
瞬间导出MLA、APA等格式的引用文献

ResearchWize是一款AI学术助手,简化引用过程,支持MLA和APA格式,自动生成引用,组织研究材料,节省时间,提高准确性,帮助学生专注于学习。

瞬间导出MLA、APA等格式的引用文献

DEV Community
DEV Community · 2025-04-26T18:40:01Z

本文总结了MHA、GQA、MQA和MLA等注意力结构的源码及其演变过程,涵盖多头注意力、前馈神经网络和层归一化等实现细节。

MHA, GQA, MQA, MLA的代码

李文举
李文举 · 2025-04-01T00:54:08Z
把MLA和稀疏激活带到端侧!港科大广州和伦敦大学学院团队联合发布软硬协同设计的边缘语言模型PLM

PLM团队开发了一种新型边缘设备语言模型,结合MLA注意力机制和ReLU²激活函数,优化了计算效率和内存使用。该模型在多项任务中表现优异,适配多种硬件,展现出高效、低延迟的性能,推动了边缘设备AI应用的发展。

把MLA和稀疏激活带到端侧!港科大广州和伦敦大学学院团队联合发布软硬协同设计的边缘语言模型PLM

机器之心
机器之心 · 2025-03-27T03:59:20Z
AWS 认证机器学习工程师 - 助理考试(AWS-MLA-C01)相关的 AWS 服务

本文概述了AWS考试相关的服务和功能,涵盖分析、应用集成、云财务管理、计算、容器、数据库、开发工具、机器学习、管理与治理、媒体、迁移与传输、网络与内容交付、安全、身份与合规、存储等多个类别,并指出了一些不在考试范围内的服务。

AWS 认证机器学习工程师 - 助理考试(AWS-MLA-C01)相关的 AWS 服务

DEV Community
DEV Community · 2025-03-08T14:03:01Z
DeepSeek的MLA,任意大模型都能轻松迁移了

复旦NLP实验室的纪焘博士后研究了如何高效地将基于多头自注意力(MHA)的大语言模型迁移至多头潜在注意力(MLA)架构,提出了MHA2MLA框架。该框架通过部分RoPE保留和低秩近似,显著降低推理成本,仅需0.3%至0.6%的预训练数据,兼容现有技术,为资源高效的LLMs部署提供新路径。

DeepSeek的MLA,任意大模型都能轻松迁移了

机器之心
机器之心 · 2025-03-06T13:15:00Z
什么是DeepSeek Flash MLA

FlashMLA是DeepSeek开发的多层注意力解码内核,专为NVIDIA Hopper GPU优化,提升大语言模型性能。支持BF16、分页KV缓存和可变长度序列,适用于医疗和金融行业。代码开源,促进AI技术合作与创新。

什么是DeepSeek Flash MLA

DEV Community
DEV Community · 2025-02-27T15:02:39Z
DeepSeek开源力量爆发!Flash MLA登场,英伟达的精准刀法遇到重大挑战!

DeepSeek推出开源项目Flash MLA,旨在优化英伟达H系列芯片性能。该项目采用MIT协议,通过分页式间值缓存、BF16精度和并行计算提升效率。尽管短期影响有限,但在中国出口限制背景下,可能对英伟达市场造成压力。

DeepSeek开源力量爆发!Flash MLA登场,英伟达的精准刀法遇到重大挑战!

硕鼠的博客站
硕鼠的博客站 · 2025-02-26T00:47:10Z

本文介绍了Open R1的开源内容及其复现R1训练流程的过程,包括GRPO实现、数据生成和评估。OpenR1-Math-220k数据集生成了22万条高质量数学推理数据,提升了模型性能。通过改进验证工具和使用奖励模型,确保了数据质量和推理能力。

MTP——我对DeepSeek V3中多token预测MTP的代码实现(含对V3官方MoE、MLA推理代码的解读)

结构之法 算法之道
结构之法 算法之道 · 2025-02-13T07:45:02Z

本文探讨了DeepSeek从教育向科技转型的过程,重点关注V3和R1模型的开源内容及复现问题。尽管V3未开源核心训练数据,但仍具科研价值。Open R1复现了R1的前两个训练阶段,并提供相关代码和实现细节,以帮助更多人理解和应用这些技术。

MLA实现及其推理上的十倍提速——逐行解读DeepSeek V2中多头潜在注意力MLA的源码(图、公式、代码逐一对应)

结构之法 算法之道
结构之法 算法之道 · 2025-02-10T08:53:38Z
AWS认证机器学习工程师 - 助理(MLA-C01)考试体验记

我于1月29日参加了AWS Certified Machine Learning Engineer - Associate考试,但未能通过。尽管1月9日已通过AWS Certified AI Practitioner,但对Machine Learning Engineer的知识准备不足,导致不合格。考试难度较高,需要掌握实际应用知识。我希望在2月15日前再次挑战,以获得Early Adopter数字徽章。

AWS认证机器学习工程师 - 助理(MLA-C01)考试体验记

DEV Community
DEV Community · 2025-02-04T21:24:30Z

DeepSeek V3将于2024年12月发布,凭借1/14的算力超越Llama 3.1 405B,采用多头潜在注意力和负载平衡策略,训练成本仅为558万美元,展现了国内AI领域的创新能力。

一文通透让Meta恐慌的DeepSeek-V3:在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)

结构之法 算法之道
结构之法 算法之道 · 2025-01-27T01:22:50Z

本文介绍了DeepSeek-V2中的MHA创新点,包括MLA降低KV Cache开销,FFN结构改为DeepseekMoE,以及MLA对Query和Key的压缩和RoPE编码。

一文通透DeepSeek-V2(改造Transformer的中文模型):详解MoE、GRPO、MLA

结构之法 算法之道
结构之法 算法之道 · 2024-08-26T13:18:39Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码