小红花·文摘 - 小红花技术领袖俱乐部

通过理论分析大规模语言模型的内部结构和操作机制，探讨Transformer及其派生体结构在捕获长期依赖时的计算效率限制。评估自适应优化算法、大规模并行计算技术和混合精度训练策略对加速收敛和减少内存占用的贡献。回顾模型压缩技术的最新进展，展示其在减小模型规模和推理延迟、保持模型预测准确性方面的能力。批判性审查当前效率优化方法的局限性，并提出未来研究展望。

基于深度学习的大规模语言模型在自然语言处理任务中的效率优化

BriefGPT - AI 论文速递 ·

本研究提出了一种名为“Actor-Mimic”的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在Atari游戏上进行了测试。

读动即玩（R2-Play）：多模态游戏指令决策转换器

BriefGPT - AI 论文速递 ·

本文介绍了DeepSpeed-MoE深度学习模型训练及推断方案，通过模型压缩技术和优化的推断系统，在减小模型尺寸、提高能效和降低硬件资源要求方面表现显著。希望通过Sparse MoE Models的训练和部署，减少硬件资源需求，加速模型应用。

DeepSeekMoE: 迈向极致专业化的混合专家语言模型

BriefGPT - AI 论文速递 ·

该研究论文强调了大语言模型（LLMs）对参数高效微调（PEFT）的迫切需求，并提出了创新的PEFT架构、不同学习设置的PEFT、结合模型压缩技术的PEFT以及多模态LLMs的PEFT探索。该论文旨在激发进一步研究，并促进围绕LLMs的更高效和可访问的PEFT的讨论。

面向更高参数效率的大语言模型微调：一篇立场论文

BriefGPT - AI 论文速递 ·

本文介绍了一种名为 DeepSpeed-MoE 的深度学习模型训练及推断方案，通过 Mixture-of-Experts 模型架构实现。该方案采用新颖的模型压缩技术和高度优化的推断系统，能够在减小模型尺寸、提高能效和降低硬件资源要求等方面表现出色。

MoCaE: 混合校准专家显著改进目标检测

BriefGPT - AI 论文速递 ·

LoSparse是一种新的模型压缩技术，通过低秩矩阵和稀疏矩阵的加和来近似权重矩阵，避免了低秩逼近和剪枝的局限性，在自然语言理解、问答和生成等任务中表现优异。

LORD：单语代码 LLM 的低秩分解用于一次性压缩

BriefGPT - AI 论文速递 ·

中国科学院团队聊LLM模型压缩：剪枝、蒸馏和量化

中国科学院团队聊LLM模型压缩：剪枝、蒸馏和量化

AI.News ·

该论文综述了针对大型语言模型的模型压缩技术，包括量化、修剪和知识蒸馏等方法。讨论了压缩后的大型语言模型的基准策略和评估指标，以提高效率和实际应用。为未来发展奠定了基础。

大型语言模型的模型压缩综述

BriefGPT - AI 论文速递 ·