小红花·文摘

通过稀疏电路理解神经网络

OpenAI ·

CLIP-UP：一种简单高效的稀疏上循环Mixture-of-Experts CLIP训练方案

Apple Machine Learning Research ·

本文介绍了一种针对大型视觉语言模型的训练策略MoE-tuning，通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型，有效解决多模态学习和模型稀疏性带来的性能退化问题。实验证明，MoE-LLaVA在视觉理解方面具有出色的能力，并且在模型输出的对象幻象基准测试中超越了LLaVA-1.5-13B，在各种视觉理解数据集上表现可与LLaVA-1.5-7B相媲美。通过MoE-LLaVA，我们旨在为稀疏LVLMs建立基准，并为未来开发更高效和有效的多模态学习系统提供有价值的见解。

密集训练，稀疏推断：重思混合专家语言模型的训练

BriefGPT - AI 论文速递 ·

通过PESC方法，结合稀疏模型和专家混合，能够在指令调整阶段提高性能、降低计算成本和GPU内存要求。实验证明，PESC稀疏模型在功能上优于其他开源稀疏模型，并比GPT3.5具有更优秀的整体性能。

通过稀疏插值专家释放元调优的强大力量，以实现少样本泛化

BriefGPT - AI 论文速递 ·

LLaVA-MoLE：稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突

BriefGPT - AI 论文速递 ·

该研究提出了一种新的度量方法，用于降低DNN的内存占用。同时介绍了一种新型可转置细粒度稀疏掩码，并使用最小成本流问题来寻找最优的可转置掩码。此外，还提出了一种将无结构稀疏模型转换为N:M细粒度块稀疏模型的方法。

集成口罩网络

BriefGPT - AI 论文速递 ·