DeepSeek-V3.2在推理任务上超越GPT-5
InfoQ
·
vLLM中的DeepSeek-V3.2-Exp:细粒度稀疏注意力的应用
vLLM Blog
·
小红书dots.llm1:重新定义MoE效率边界,14B激活参数挑战72B密集模型极限
我爱自然语言处理
·
清华稀疏Attention,无需训练加速一切模型!
机器之心
·
稀疏注意力再添一员,华为诺亚推出高效选择注意力架构ESA
机器之心
·
Qwen2.5-1M: 支持100万Token上下文的开源Qwen模型
Blog on Qwen
·