小红花·文摘

DeepSeek-V4通过创新技术实现高性价比，采用MoE模型分离总参数与每token成本，结合混合注意力CSA和HCA降低计算需求，引入mHC和Muon优化训练稳定性，利用磁盘缓存减少重复计算成本，最终实现1M上下文的高效推理。

【大模型基础设施工程·特别篇】27：DeepSeek-V4 的极致性价比从哪来

土法炼钢兴趣小组的博客 ·

$DeepSeek-V4——迈向百万token上下文：保留V3的MoE和多token预测机制，提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)$

DeepSeek-V4——迈向百万token上下文：保留V3的MoE和多token预测机制，提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

结构之法算法之道 ·

DeepSeek-V4来了：一百万Token上下文，意味着AI终于能“读完整本书”了吗？

dotNET跨平台 ·

面壁智能推出SALA混合注意力架构，支持处理百万上下文，显著提升长文本推理效率。MiniCPM-SALA模型在5090显卡上成功运行，已开源，推动端侧智能发展。

9B端侧开源模型跑通百万上下文，面壁全新稀疏-线性混合注意力架构SALA立功了！

量子位 ·

Qwen3-Next模型发布，参数80B，训练成本低，推理速度提升10倍，超越Gemini-2.5-Flash-Thinking。核心改进包括混合注意力机制和高稀疏度MoE结构，支持多模态，具备快速解题和编程能力。

实测！Qwen下一代基础架构突袭！秒解AIME数学竞赛题，提速10倍+性价比提升10倍

量子位 ·

本研究提出了一种混合注意力-曼巴框架（HAMF），旨在解决自主驾驶系统中的运动预测信息降级问题。通过共同编码场景上下文与未来运动状态，HAMF提高了运动预测的准确性和多样性。实验结果表明，该模型在Argoverse 2基准测试中表现优异。

HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种新的编码器-解码器变换器框架MAYA，旨在解决变换器在处理表格数据时特征异质性不足的问题。该方法结合混合注意力机制和动态一致性权重约束，在多个数据集上超越了现有主流变换器的表现。

混合注意力在表格数据中产生准确结果

BriefGPT - AI 论文速递 ·

该文章介绍了一种新型的混合注意力 Transformer 模型，用于图片重构任务。该模型结合了融合通道注意力和基于窗口的自注意机制的优势，并引入了重叠交叉注意力模块和预训练策略。实验结果表明，该模型在图片超分辨率方面的表现优于现有方法超过 1dB。

HAT：用于图像恢复的混合注意力变换器

BriefGPT - AI 论文速递 ·

本文提出了一种基于知识增强型注意力框架（KEAF）的多标签少样本学习（FSL）的属性值提取模型。该模型通过原型网络和混合注意力减少噪音、捕获更多信息，实现更具区别性的原型。同时，通过整合支持集和查询集的语义信息，该模型能够学习动态阈值实现多标签推断。实验结果表明，KEAF 在少样本学习中的信息提取任务中优于其他模型。

基于知识增强的多标签少样本产品属性值提取

BriefGPT - AI 论文速递 ·