小红花·文摘

Hermes MoA堆叠多个前沿模型：性能优于Opus 4.8和GPT-5.5

极道 ·

无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

机器之心 ·

该论文介绍了一种名为混合代理（MoA）的方法，通过多个代理之间的协作来提升大型语言模型的能力。然而，与MetaGPT相比，该方法的效果较差，因为MetaGPT的每个Agent都有经过精心编写的提示词。

稀疏注意力能够有效缓解大型语言模型在长上下文中的内存和吞吐量需求，我们提出了混合注意力（MoA），它能够自动为不同的注意力头部和层级适应不同的稀疏注意力配置，通过优化稀疏注意力压缩方案，MoA 在保持平均注意力范围不变的情况下，将有效上下文长度提高 3.9 倍，并在多个评估指标上取得 1.5-7.1 倍的准确性提升，在 GPU 内存减少 1.2-1.4 倍的同时，提升解码吞吐量 5.5-6.7 倍。

MoA: 自动大规模语言模型压缩的稀疏注意力混合

BriefGPT - AI 论文速递 ·

本文介绍了新型神经网络结构和模型，如MoA、MoMA和TC-MoA，旨在提升自然语言处理和图像生成任务的性能。这些模型通过动态选择注意力头和新颖的自注意力方法，在个性化生成和图像融合方面表现出色，提供更高的细节保真度和身份保留性。此外，研究提出了针对多概念个性化的框架OMG，展示了其在复杂图像生成任务中的优势。

MoA: 个性化图像生成中的主题 - 上下文分离的注意力混合

BriefGPT - AI 论文速递 ·

Hermes MoA堆叠多个前沿模型：性能优于Opus 4.8和GPT-5.5

MOA键帽：提升打字体验的终极升级

无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

大模型-MoA方法尝试

MoA: 自动大规模语言模型压缩的稀疏注意力混合

MoA: 个性化图像生成中的主题 - 上下文分离的注意力混合