DeepSeek-V4通过创新技术实现高性价比,采用MoE模型分离总参数与每token成本,结合混合注意力CSA和HCA降低计算需求,引入mHC和Muon优化训练稳定性,利用磁盘缓存减少重复计算成本,最终实现1M上下文的高效推理。
DeepSeek-V4系列模型推出了1.6T和284B参数的两个版本,采用混合注意力架构和流形约束超连接,提升了长上下文处理效率。通过Muon优化器和多项基础设施优化,模型在训练和推理阶段展现出更高的稳定性和效率。预训练后,DeepSeek-V4在多个基准测试中超越前代,设立了新的性能标准。
DeepSeek-V4技术报告探讨了如何处理百万Token上下文,突破传统Transformer的计算瓶颈。报告介绍了两个MoE模型,强调混合注意力架构和稳定的信息传递通道,旨在提升长上下文能力,以更好地应对复杂任务。后续训练思路为先培养专家模型,再统一成一个模型,指出长上下文将成为AI的基础能力,推动模型效率重构,目标是实现高效、经济的AI应用。
面壁智能推出SALA混合注意力架构,支持处理百万上下文,显著提升长文本推理效率。MiniCPM-SALA模型在5090显卡上成功运行,已开源,推动端侧智能发展。
Qwen3-Next模型发布,参数80B,训练成本低,推理速度提升10倍,超越Gemini-2.5-Flash-Thinking。核心改进包括混合注意力机制和高稀疏度MoE结构,支持多模态,具备快速解题和编程能力。
本研究提出了一种混合注意力-曼巴框架(HAMF),旨在解决自主驾驶系统中的运动预测信息降级问题。通过共同编码场景上下文与未来运动状态,HAMF提高了运动预测的准确性和多样性。实验结果表明,该模型在Argoverse 2基准测试中表现优异。
本研究提出了一种新的编码器-解码器变换器框架MAYA,旨在解决变换器在处理表格数据时特征异质性不足的问题。该方法结合混合注意力机制和动态一致性权重约束,在多个数据集上超越了现有主流变换器的表现。
该文章介绍了一种新型的混合注意力 Transformer 模型,用于图片重构任务。该模型结合了融合通道注意力和基于窗口的自注意机制的优势,并引入了重叠交叉注意力模块和预训练策略。实验结果表明,该模型在图片超分辨率方面的表现优于现有方法超过 1dB。
本文提出了一种基于知识增强型注意力框架(KEAF)的多标签少样本学习(FSL)的属性值提取模型。该模型通过原型网络和混合注意力减少噪音、捕获更多信息,实现更具区别性的原型。同时,通过整合支持集和查询集的语义信息,该模型能够学习动态阈值实现多标签推断。实验结果表明,KEAF 在少样本学习中的信息提取任务中优于其他模型。
完成下面两步后,将自动完成登录并继续当前操作。