面壁智能推出SALA混合注意力架构,支持处理百万上下文,显著提升长文本推理效率。MiniCPM-SALA模型在5090显卡上成功运行,已开源,推动端侧智能发展。
OpenAI推出了性能更强的GPT-5.2模型,适用于专业知识、编码和长文本推理。AI Gateway提供三种模型,支持不同复杂度的任务,并实现统一API调用和智能路由。
DeepSeek最新模型V3.2-Exp上线,采用新稀疏注意力机制DSA,提升长文本推理效率,并开源TileLang和CUDA算子,API价格降至五折,国庆礼包也令人惊喜。
阿里开源的长文本深度思考模型QwenLong-L1在长文本推理中表现优异,采用渐进式强化学习解决训练难题。其32B版本性能与Claude-3.7相当,成功过滤干扰信息,提升推理准确性。通过预热微调和分阶段强化学习,模型逐步适应长文本,显著超越传统模型。
清华大学等机构提出APB框架,利用稀疏注意力机制显著提升长文本推理效率,速度比传统方法快10倍,有效解决长距离语义依赖问题,适用于大模型服务。
大型语言模型(LLMs)在长文本推理中表现优异。研究表明,适当的提示策略可以提升LLMs的自我推理能力,从而增强其长文本推理能力。
这篇文章介绍了一种名为“树注意力”的新型注意力机制,可以在多个GPU上并行运行,提高长文本推理的速度。树注意力的关键之处在于通信步数随设备数量成对数增长,而不是线性增长,因此随着设备数量增大,其优势更加明显。与之前的环注意力相比,树注意力不仅可以节省峰值内存占用,还能保持完整的注意力计算。树注意力的设计还充分利用了GPU集群的两级拓扑特点,进一步提高了性能。这项研究对于高推理需求的大型公司非常重要。
完成下面两步后,将自动完成登录并继续当前操作。