小红花·文摘

本研究提出了一种系统化的权重重要性评估方法，以解决大型语言模型（LLMs）在训练中面临的高计算资源和环境影响问题。实验结果表明，适度修剪模型可以提高效率并降低损失，而过度修剪则会损害性能，强调了优化人工智能模型以实现可持续发展的必要性。

Systematic Weight Evaluation for Large Language Models: Enhancing Performance and Sustainability

BriefGPT - AI 论文速递 ·

本文探讨了上下文学习（ICL）在多任务学习中的应用，分析了Transformer模型在不同数据条件下的泛化能力和稳定性。研究发现，Transformer在无监督学习和新任务执行中表现良好，但在超出预训练数据的任务中泛化能力有所下降。通过理论分析和实证研究，提出了影响ICL性能的因素，并验证了模型修剪对ICL的影响。

变压器是最小最大最优的非参数上下文学习耠

BriefGPT - AI 论文速递 ·

混合专家（MoE）模型通过稀疏激活多个专家来提高计算效率和性能。本文探讨了动态专家选择、知识蒸馏和模型修剪等创新方法，旨在优化模型性能并减少内存消耗。研究表明，这些方法在自然语言处理和计算机视觉等任务中表现优异，为未来的MoE研究提供了重要方向。

模型合并调研：回收与路由专门化专家以实现协同学习

BriefGPT - AI 论文速递 ·

优化大型语言模型的性能和可扩展性

KDnuggets ·

本文介绍了针对大型语言模型的优化方法，包括基于梯度的模型修剪、低秩投影和稀疏性策略。这些方法提高了预训练和推理效率，降低了内存需求，同时保持高准确率。研究展示了在普通硬件上实现高效微调和推理的可行性。

Grass: 结构稀疏梯度的计算高效低内存 LLM 训练

BriefGPT - AI 论文速递 ·

本文介绍了一种新的精确剪枝技术，利用最优传输方案自动调整探索与开发行为，提升了在不同数据集和模型上的性能。AE-BERT框架在资源受限设备上实现了高效的BERT剪枝，实验表明其在压缩模型后能提高准确性和推理速度。此外，研究探讨了基于Transformer的模型修剪方法，提出了低秩逼近的变体，优化了模型大小与推理速度的平衡。

边缘修剪中的 Transformer 电路寻找

BriefGPT - AI 论文速递 ·

本文研究了预训练线性注意力模型在上下文学习（ICL）和线性回归中的统计基础。结果显示，预训练模型与贝叶斯最优算法高度一致，并在新任务中展现出良好的预测能力。研究还分析了影响ICL泛化性能的因素，并验证了模型修剪对性能的影响。

线性注意力下上下文学习的渐近理论

BriefGPT - AI 论文速递 ·

本文提出了一种模型修剪策略，通过生成多个修剪掩码并选择最优掩码，以提高模型准确性和效率。在 GLUE 数据集实验中，该方法实现了最先进的性能。

平衡行动：在稀疏模型中约束不平等影响

BriefGPT - AI 论文速递 ·

该研究提出了基于Transformer的语音识别神经网络语言模型的模型修剪方法，包括准则、方法和调度器，并提出了适用于渐进式压缩模型的低秩逼近的变体。数据驱动的修剪效果优于基于幅度的修剪，渐进式修剪比一次性修剪表现更好，低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

NASH: 一个简单统一的结构剪枝加速编码 - 解码语言模型框架

BriefGPT - AI 论文速递 ·

该研究提出了基于Transformer的语音识别神经网络语言模型的模型修剪方法，包括准则、方法和调度器，并提出了适用于渐进式压缩模型的低秩逼近的变体。研究结果表明，数据驱动的修剪效果优于基于幅度的修剪，渐进式修剪比一次性修剪表现更好，低秩逼近提供了尺寸减小和推理加速之间的最佳平衡。

神经语言模型修剪用于自动语音识别

BriefGPT - AI 论文速递 ·