小红花·文摘

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

机器之心 ·

本研究提出了一种新方法“MoE专家压缩套件”（MC-Suite），旨在解决稀疏激活混合专家（SMoE）模型的冗余和内存需求问题。通过迭代修剪和微调机制，优化专家丢弃过程，显著提升了SMoE的能力，尤其是指令执行能力，为混合专家模型的高效性和可扩展性提供了重要见解。

Finding Outstanding Experts in Mixture of Experts: A Unified Study on Expert Dropping Strategies and Observations

BriefGPT - AI 论文速递 ·

该研究提出了一种个性化扩散模型的方法，有效降低了训练内存需求8.2倍，同时保持个性化性能。

无需反向传播的量化扩散模型的高效个性化

BriefGPT - AI 论文速递 ·

DeepSeek团队推出的CoE（Chain-of-Experts）技术通过迭代机制将内存需求降低17.6%-42%。该技术允许专家在单层内串行通信，提升稀疏MoE模型的性能和资源效率。实验表明，在相同计算预算下，验证损失显著降低，专家组合自由度大幅增加。此技术由Zihan Wang等人提出，旨在优化稀疏神经网络的信息处理。

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队：“免费午餐”优化方法

量子位 ·

MLSys’25 | 极低内存消耗：用SGD的内存成本实现AdamW的优化性能

机器之心 ·

本研究提出了MaZO框架，旨在解决大型语言模型在多任务微调中的高内存需求问题。通过权重重要性度量和多任务权重更新掩码，MaZO有效降低了参数空间维度，减轻了任务冲突，实验结果表明其性能优于一阶优化方法。

MaZO: Masked Zeroth-Order Optimization for Multi-Task Fine-Tuning of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种高效的优化器设计方法，开发了RACS和Alice优化器，以解决大语言模型的低内存需求和快速收敛问题，显著提升了LLaMA预训练的收敛速度和性能。

Efficient Design of Large Language Model Optimizers via Low-Rank Extended Structured Fisher Approximation

BriefGPT - AI 论文速递 ·

本研究提出了BalanceKV方法，旨在解决大语言模型在长上下文生成中的高内存需求问题。通过几何采样提高了生成精度，实验结果表明其性能显著优于现有方法。

BalanceKV: KV Cache Compression via Differential Theory

BriefGPT - AI 论文速递 ·

本研究提出了一种转换器调优技术，通过引入代码属性图的结构和依赖信息，解决了资源受限环境中大型语言模型的内存需求问题。该方法在减少可训练参数的同时，保持了与全参数微调相当的性能，展现出显著的应用潜力。

Transformer Tuning: Efficient Model Adaptation for Software Tasks Using Code Property Graphs

BriefGPT - AI 论文速递 ·

本研究比较了休眠多臂赌博机中的拉格朗日指数策略（LIP）与惠特尔指数策略（WIP）的性能。结果表明，LIP在WIP表现不佳时仍能保持良好效果，并显著减少内存需求。此外，研究分析了重启模型的拉格朗日指数，并提供了均匀赌博机的渐近最优性的新证明。

Lagrangian Index Policy for Restless Bandits with Average Reward

BriefGPT - AI 论文速递 ·

本文提出的FAST-Splat方法克服了现有语义高斯色彩化的局限，能够实现精确的语义对象定位，并在训练和渲染速度及内存需求上优于传统方法。

FAST-Splat：快速、无歧义的高斯色彩语义传递

BriefGPT - AI 论文速递 ·

本研究提出了BitMoD，通过算法与硬件协同设计，解决了大语言模型的内存需求问题，实现高效加速并保持高准确率。

BitMoD: Accelerating Large Language Models with Bit-Ordered Mixed Data Types

BriefGPT - AI 论文速递 ·

本研究提出了一种准无重量变压器（QuWeiT）方法，旨在解决变压器模型的高计算和内存需求问题。实验结果表明，QuWeiT在CIFAR-10数据集上实现了95.64%的准确率，能效提升了2.2倍。

解锁大型语言模型的高效训练：深度优化器状态

DEV Community ·

本研究提出FusedInf模型交换方法，解决边缘计算中无服务器推理服务的资源限制问题。通过将多个模型组合为有向无环图，执行速度提升14%，内存需求降低至17%。

FusedInf: Efficient DNN Model Exchange for Edge On-Demand Serverless Inference Services

BriefGPT - AI 论文速递 ·

本研究提出了一种通过池化压缩激活图的方法，以减少深度神经网络在训练中的内存需求。研究表明，这种方法能够降低29%的内存消耗，同时保持预测准确性。

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如计算复杂度和内存需求。研究发现，SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中，8B参数的Mamba、Mamba-2和Transformer模型进行了比较，结果显示Mamba-2-Hybrid在12个任务上超过了Transformer。进一步实验表明混合模型在长期上下文任务中继续匹配或超越了Transformer。

震撼视觉语言模型：比较变压器和结构状态空间模型

BriefGPT - AI 论文速递 ·

选择性状态空间模型（SSMs）如Mamba克服了Transformer的一些缺点，例如计算复杂度和内存需求。研究发现，SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中，8B参数的Mamba、Mamba-2和Transformer模型进行了比较，结果显示纯SSMs在许多任务上达到或超越了Transformers，但在需要强大的复制或上下文学习能力或长期推理的任务上，它们落后于Transformers。然而，8B的Mamba-2-Hybrid在所有12个标准任务上超过了8B Transformer，并且在生成推理标记时速度最多快8倍。在额外的长期上下文任务中，混合模型继续紧密匹配或超越了Transformer。

Jamba-1.5：大规模混合Transformer-Mamba模型

BriefGPT - AI 论文速递 ·

为了解决大型语言模型的内存需求和推断成本问题，提出了一种高效的仅权重量化方法。通过减少内存消耗和加速推断，利用预训练模型的权重来确保最小质量降低。适用于混合专家模型和密集模型，无需额外微调。通过自适应的量化粒度解决挑战和问题，展示了方法的有效性。实现了高效的GPU矩阵乘法和解量化算法，支持不同激活和权重的乘法。在大规模开源模型上评估，展示了最小的准确性损失和高吞吐量。

MARLIN：大型语言模型的混合精度自回归并行推断

BriefGPT - AI 论文速递 ·

逐步量化大型语言模型：将FP16模型转换为GGUF

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

Finding Outstanding Experts in Mixture of Experts: A Unified Study on Expert Dropping Strategies and Observations

无需反向传播的量化扩散模型的高效个性化

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队：“免费午餐”优化方法

MLSys’25 | 极低内存消耗：用SGD的内存成本实现AdamW的优化性能

MaZO: Masked Zeroth-Order Optimization for Multi-Task Fine-Tuning of Large Language Models

Efficient Design of Large Language Model Optimizers via Low-Rank Extended Structured Fisher Approximation

BalanceKV: KV Cache Compression via Differential Theory

Transformer Tuning: Efficient Model Adaptation for Software Tasks Using Code Property Graphs

Lagrangian Index Policy for Restless Bandits with Average Reward

FAST-Splat：快速、无歧义的高斯色彩语义传递

BitMoD: Accelerating Large Language Models with Bit-Ordered Mixed Data Types

缩小巨人：低能耗推理的准无重量变压器

解锁大型语言模型的高效训练：深度优化器状态

FusedInf: Efficient DNN Model Exchange for Edge On-Demand Serverless Inference Services

更少的内存意味着更小的GPU：压缩激活的反向传播

震撼视觉语言模型：比较变压器和结构状态空间模型

Jamba-1.5：大规模混合Transformer-Mamba模型

MARLIN：大型语言模型的混合精度自回归并行推断