智谱GLM-5技术论文公开,展示其在长任务处理上的能力,支持多种国产芯片。通过引入稀疏注意力机制和异步强化学习,显著提升了效率。GLM-5在多项评测中表现优异,成为开源AI领域的重要模型,受到国际关注。
DeepSeek-V3.2引入了稀疏注意力机制(DSA),优化了长文本处理的效率。通过闪电索引器和细粒度选择机制,DSA减少了计算量并提升了模型性能。该版本在持续预训练和后训练中结合专家蒸馏和强化学习,显著提高了推理效率和稳定性。
DeepSeek-V3.2系列模型发布,性能接近Gemini-3.0-Pro,适合日常问答和复杂任务。引入稀疏注意力机制DSA,显著降低计算复杂度。模型在Agent任务上表现优异,支持思考与工具调用。尽管存在知识广度和Token效率的局限,团队计划在未来版本中进行改进。
DeepSeek-AI 发布了新模型 DeepSeek-V3.2-Exp,采用稀疏注意力机制(DSA),显著提升长文本任务的训练与推理效率。DSA 通过闪电索引器和细粒度令牌选择,降低计算复杂度,保持模型性能。模型训练分为密集预热和稀疏训练阶段,使用大量上下文数据。测试结果显示,V3.2-Exp 在多项任务中表现稳定,推理成本显著降低,未来将进行大规模真实场景测试。
DeepSeek最新模型V3.2-Exp上线,采用新稀疏注意力机制DSA,提升长文本推理效率,并开源TileLang和CUDA算子,API价格降至五折,国庆礼包也令人惊喜。
本研究提出了一种名为SpargeAttn的稀疏注意力机制,旨在解决大模型推理中的时间复杂度问题。该方法通过在线过滤器快速预测注意力图,跳过部分计算,从而显著提高推理速度而不影响性能。
DeepSeek 发布了一种名为 NSA 的稀疏注意力机制,旨在提高长上下文的训练和推理效率。该机制通过硬件对齐和可训练设计,显著降低计算开销,同时保持性能。实验结果表明,NSA 在多个基准测试中表现优异,尤其在长上下文任务中展现出卓越的能力和加速效果。
该文提出了一种基于上下文感知 NMT 的层次化注意力机制,用于处理整个文档的翻译。该方法使用稀疏注意力机制在文档上选择性地关注相关句子和关键词,并将这些注意力模块产生的文档级上下文表示集成到 Transformer 模型的编码器或解码器中。在英德数据集上的实验进一步验证了该方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。