小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

DeepSeek-V4通过创新技术实现高性价比,采用MoE模型分离总参数与每token成本,结合混合注意力CSA和HCA降低计算需求,引入mHC和Muon优化训练稳定性,利用磁盘缓存减少重复计算成本,最终实现1M上下文的高效推理。

【大模型基础设施工程·特别篇】27:DeepSeek-V4 的极致性价比从哪来

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-27T00:00:00Z
DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek-V4系列模型推出了1.6T和284B参数的两个版本,采用混合注意力架构和流形约束超连接,提升了长上下文处理效率。通过Muon优化器和多项基础设施优化,模型在训练和推理阶段展现出更高的稳定性和效率。预训练后,DeepSeek-V4在多个基准测试中超越前代,设立了新的性能标准。

DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

结构之法 算法之道
结构之法 算法之道 · 2026-05-03T15:54:48Z
DeepSeek-V4来了:一百万Token上下文,意味着AI终于能“读完整本书”了吗?

DeepSeek-V4技术报告探讨了如何处理百万Token上下文,突破传统Transformer的计算瓶颈。报告介绍了两个MoE模型,强调混合注意力架构和稳定的信息传递通道,旨在提升长上下文能力,以更好地应对复杂任务。后续训练思路为先培养专家模型,再统一成一个模型,指出长上下文将成为AI的基础能力,推动模型效率重构,目标是实现高效、经济的AI应用。

DeepSeek-V4来了:一百万Token上下文,意味着AI终于能“读完整本书”了吗?

dotNET跨平台
dotNET跨平台 · 2026-04-25T00:09:04Z

面壁智能推出SALA混合注意力架构,支持处理百万上下文,显著提升长文本推理效率。MiniCPM-SALA模型在5090显卡上成功运行,已开源,推动端侧智能发展。

9B端侧开源模型跑通百万上下文,面壁全新稀疏-线性混合注意力架构SALA立功了!

量子位
量子位 · 2026-02-11T13:06:27Z

Qwen3-Next模型发布,参数80B,训练成本低,推理速度提升10倍,超越Gemini-2.5-Flash-Thinking。核心改进包括混合注意力机制和高稀疏度MoE结构,支持多模态,具备快速解题和编程能力。

实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍

量子位
量子位 · 2025-09-12T08:51:17Z

本研究提出了一种混合注意力-曼巴框架(HAMF),旨在解决自主驾驶系统中的运动预测信息降级问题。通过共同编码场景上下文与未来运动状态,HAMF提高了运动预测的准确性和多样性。实验结果表明,该模型在Argoverse 2基准测试中表现优异。

HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种新的编码器-解码器变换器框架MAYA,旨在解决变换器在处理表格数据时特征异质性不足的问题。该方法结合混合注意力机制和动态一致性权重约束,在多个数据集上超越了现有主流变换器的表现。

混合注意力在表格数据中产生准确结果

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

该文章介绍了一种新型的混合注意力 Transformer 模型,用于图片重构任务。该模型结合了融合通道注意力和基于窗口的自注意机制的优势,并引入了重叠交叉注意力模块和预训练策略。实验结果表明,该模型在图片超分辨率方面的表现优于现有方法超过 1dB。

HAT:用于图像恢复的混合注意力变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-11T00:00:00Z

本文提出了一种基于知识增强型注意力框架(KEAF)的多标签少样本学习(FSL)的属性值提取模型。该模型通过原型网络和混合注意力减少噪音、捕获更多信息,实现更具区别性的原型。同时,通过整合支持集和查询集的语义信息,该模型能够学习动态阈值实现多标签推断。实验结果表明,KEAF 在少样本学习中的信息提取任务中优于其他模型。

基于知识增强的多标签少样本产品属性值提取

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码