小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一分钟读论文:《把百亿模型装进手机:TIDE实现扩散语言模型跨架构蒸馏》

北京大学和浙江大学的研究者提出了TIDE框架,实现了扩散语言模型的跨架构蒸馏,将16B MoE教师模型压缩至0.6B学生模型,提升了代码生成任务的性能和推理速度,并显著降低了内存需求。TIDE通过双轴调度、上下文增强和跨分词器匹配等技术,解决了蒸馏过程中的关键挑战,使得dLLM在消费级硬件上部署成为可能。

一分钟读论文:《把百亿模型装进手机:TIDE实现扩散语言模型跨架构蒸馏》

Micropaper
Micropaper · 2026-05-03T00:00:00Z
逐步量化大型语言模型:将FP16模型转换为GGUF

量化技术可以缩小大型语言模型的体积,使其在个人电脑上运行成为可能。本文介绍了如何将FP16模型转换为GGUF格式,包括模型精度类型、使用huggingface_hub获取模型、量化步骤及上传到Hugging Face的方法。量化通过降低存储精度显著减少内存需求,使大型模型更易于使用。

逐步量化大型语言模型:将FP16模型转换为GGUF

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-08T11:00:38Z
一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型

谷歌Gemma 3新版本通过量化感知训练(QAT)优化,显著降低内存需求,27B模型的VRAM从54GB降至14.1GB,支持在消费级GPU上运行,用户可在RTX 3090等设备上轻松使用,提升AI功能。

一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型

机器之心
机器之心 · 2025-04-20T02:16:00Z

本研究提出了一种新方法“MoE专家压缩套件”(MC-Suite),旨在解决稀疏激活混合专家(SMoE)模型的冗余和内存需求问题。通过迭代修剪和微调机制,优化专家丢弃过程,显著提升了SMoE的能力,尤其是指令执行能力,为混合专家模型的高效性和可扩展性提供了重要见解。

Finding Outstanding Experts in Mixture of Experts: A Unified Study on Expert Dropping Strategies and Observations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

该研究提出了一种个性化扩散模型的方法,有效降低了训练内存需求8.2倍,同时保持个性化性能。

无需反向传播的量化扩散模型的高效个性化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

DeepSeek团队推出的CoE(Chain-of-Experts)技术通过迭代机制将内存需求降低17.6%-42%。该技术允许专家在单层内串行通信,提升稀疏MoE模型的性能和资源效率。实验表明,在相同计算预算下,验证损失显著降低,专家组合自由度大幅增加。此技术由Zihan Wang等人提出,旨在优化稀疏神经网络的信息处理。

DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法

量子位
量子位 · 2025-03-04T07:49:06Z
MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能

AIxiv专栏促进学术交流,报道超过2000篇内容。UT Austin与Meta AI联合推出APOLLO训练策略,显著降低大语言模型的内存需求并提升性能,为资源有限的研究者提供高效训练的新方案。

MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能

机器之心
机器之心 · 2025-02-27T03:41:56Z

本研究提出了MaZO框架,旨在解决大型语言模型在多任务微调中的高内存需求问题。通过权重重要性度量和多任务权重更新掩码,MaZO有效降低了参数空间维度,减轻了任务冲突,实验结果表明其性能优于一阶优化方法。

MaZO: Masked Zeroth-Order Optimization for Multi-Task Fine-Tuning of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种高效的优化器设计方法,开发了RACS和Alice优化器,以解决大语言模型的低内存需求和快速收敛问题,显著提升了LLaMA预训练的收敛速度和性能。

Efficient Design of Large Language Model Optimizers via Low-Rank Extended Structured Fisher Approximation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了BalanceKV方法,旨在解决大语言模型在长上下文生成中的高内存需求问题。通过几何采样提高了生成精度,实验结果表明其性能显著优于现有方法。

BalanceKV: KV Cache Compression via Differential Theory

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了一种转换器调优技术,通过引入代码属性图的结构和依赖信息,解决了资源受限环境中大型语言模型的内存需求问题。该方法在减少可训练参数的同时,保持了与全参数微调相当的性能,展现出显著的应用潜力。

Transformer Tuning: Efficient Model Adaptation for Software Tasks Using Code Property Graphs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究比较了休眠多臂赌博机中的拉格朗日指数策略(LIP)与惠特尔指数策略(WIP)的性能。结果表明,LIP在WIP表现不佳时仍能保持良好效果,并显著减少内存需求。此外,研究分析了重启模型的拉格朗日指数,并提供了均匀赌博机的渐近最优性的新证明。

Lagrangian Index Policy for Restless Bandits with Average Reward

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本文提出的FAST-Splat方法克服了现有语义高斯色彩化的局限,能够实现精确的语义对象定位,并在训练和渲染速度及内存需求上优于传统方法。

FAST-Splat:快速、无歧义的高斯色彩语义传递

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

本研究提出了BitMoD,通过算法与硬件协同设计,解决了大语言模型的内存需求问题,实现高效加速并保持高准确率。

BitMoD: Accelerating Large Language Models with Bit-Ordered Mixed Data Types

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z
解锁大型语言模型的高效训练:深度优化器状态

本文介绍了一种名为“深度优化器状态”的新方法,旨在提高大型语言模型的训练效率。该方法通过交错卸载、数据管理和可扩展优化,显著减少了50%的GPU使用时间,解决了高内存需求和I/O瓶颈问题,为大型AI模型的高效训练提供了重要进展。

解锁大型语言模型的高效训练:深度优化器状态

DEV Community
DEV Community · 2024-11-02T07:15:13Z

本研究提出FusedInf模型交换方法,解决边缘计算中无服务器推理服务的资源限制问题。通过将多个模型组合为有向无环图,执行速度提升14%,内存需求降低至17%。

FusedInf: Efficient DNN Model Exchange for Edge On-Demand Serverless Inference Services

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究提出了一种渐进混合精度解码技术,旨在解决大型语言模型在资源受限设备上的高计算和内存需求问题。该方法通过在不同推理阶段选择性分配精度,提升了计算效率和内存带宽利用率,同时保持输出质量,显著提高了推理速度和效率。

Progressive Mixed-Precision Decoding for Efficient LLM Inference

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文探讨了多种3D高斯喷洒技术的优化方法,提出了GaussianPro、Pixel-GS和EfficientGS等新方法,显著提高了渲染效率和质量,并降低了内存需求。这些方法在大规模和小规模场景中均有效,具备实时渲染能力,具有广泛的应用潜力。

高效的透视校正3D高斯点阵混合透明度渲染

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究提出了一种通过池化压缩激活图的方法,以减少深度神经网络训练中的内存需求和数据移动。尽管训练时间有所增加,该方法仍能将峰值内存消耗降低29%,同时保持预测准确性,显示出在深度学习中的潜在影响。

Less Memory Means Smaller GPUs: Backpropagation with Compressed Activations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z

本文探讨了多种3D高斯喷涂技术的优化方法,如量化嵌入、EfficientGS、SAGS和F-3DGS,旨在降低内存需求并提高渲染质量。同时,提出了Grendel分布式系统,支持高分辨率3D重建,显著提升渲染性能。通过因子化张量照明方法,优化了视依赖效果,保持了快速训练和渲染速度。

FlashGS:大规模高分辨率渲染的高效3D高斯点云处理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码