小红花·文摘

The New Stack ·

面壁智能与清华的CFM技术通过神经元级稀疏激活，提高了模型参数效率，降低了资源消耗，适合手机端应用。与MoE相比，CFM在稀疏化和动态性上更为优越，能够根据任务需求灵活激活神经元。

量子位 ·

本研究提出了一种新方法“MoE专家压缩套件”（MC-Suite），旨在解决稀疏激活混合专家（SMoE）模型的冗余和内存需求问题。通过迭代修剪和微调机制，优化专家丢弃过程，显著提升了SMoE的能力，尤其是指令执行能力，为混合专家模型的高效性和可扩展性提供了重要见解。

BriefGPT - AI 论文速递 ·

本研究提出了雅可比稀疏自编码器（JSAEs），解决了传统稀疏自编码器仅关注激活稀疏性的问题。JSAEs实现了输入、输出激活及连接的雅可比矩阵的稀疏性，在保持大规模语言模型（LLM）性能的同时，提升了计算稀疏性，强调了计算图稀疏性在LLM训练中的重要性。

BriefGPT - AI 论文速递 ·

机器之心 ·

混合专家（MoE）模型通过稀疏激活多个专家来提高计算效率和性能。本文探讨了动态专家选择、知识蒸馏和模型修剪等创新方法，旨在优化模型性能并减少内存消耗。研究表明，这些方法在自然语言处理和计算机视觉等任务中表现优异，为未来的MoE研究提供了重要方向。

BriefGPT - AI 论文速递 ·

本文探讨了在小型语言模型中实现稀疏激活的方法，提出了E-Sparse和ProSparse技术，显著提高了模型的稀疏性和推理速度，同时保持较高的准确性。研究表明，通过创新的剪枝和量化方法，可以在不牺牲性能的情况下实现更高的计算和内存效率。

BriefGPT - AI 论文速递 ·