面壁智能推出SALA混合注意力架构,支持处理百万上下文,显著提升长文本推理效率。MiniCPM-SALA模型在5090显卡上成功运行,已开源,推动端侧智能发展。
Qwen3-Next模型发布,参数80B,训练成本低,推理速度提升10倍,超越Gemini-2.5-Flash-Thinking。核心改进包括混合注意力机制和高稀疏度MoE结构,支持多模态,具备快速解题和编程能力。
本研究提出了一种混合注意力-曼巴框架(HAMF),旨在解决自主驾驶系统中的运动预测信息降级问题。通过共同编码场景上下文与未来运动状态,HAMF提高了运动预测的准确性和多样性。实验结果表明,该模型在Argoverse 2基准测试中表现优异。
本研究提出了一种新的编码器-解码器变换器框架MAYA,旨在解决变换器在处理表格数据时特征异质性不足的问题。该方法结合混合注意力机制和动态一致性权重约束,在多个数据集上超越了现有主流变换器的表现。
本研究提出了一种基于大型语言模型的假新闻检测框架,结合文本统计与深层语义特征,通过混合注意力机制提升识别效果。实验结果显示,该模型在WELFake数据集上的F1分数提高了1.5%,为假新闻传播提供了有效解决方案。
该文章介绍了一种新型的混合注意力 Transformer 模型,用于图片重构任务。该模型结合了融合通道注意力和基于窗口的自注意机制的优势,并引入了重叠交叉注意力模块和预训练策略。实验结果表明,该模型在图片超分辨率方面的表现优于现有方法超过 1dB。
本文提出了一种基于知识增强型注意力框架(KEAF)的多标签少样本学习(FSL)的属性值提取模型。该模型通过原型网络和混合注意力减少噪音、捕获更多信息,实现更具区别性的原型。同时,通过整合支持集和查询集的语义信息,该模型能够学习动态阈值实现多标签推断。实验结果表明,KEAF 在少样本学习中的信息提取任务中优于其他模型。
完成下面两步后,将自动完成登录并继续当前操作。