小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
逐步量化大型语言模型:将FP16模型转换为GGUF

量化技术可以缩小大型语言模型的体积,使其在个人电脑上运行成为可能。本文介绍了如何将FP16模型转换为GGUF格式,包括模型精度类型、使用huggingface_hub获取模型、量化步骤及上传到Hugging Face的方法。量化通过降低存储精度显著减少内存需求,使大型模型更易于使用。

逐步量化大型语言模型:将FP16模型转换为GGUF

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-08T11:00:38Z
一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型

谷歌Gemma 3新版本通过量化感知训练(QAT)优化,显著降低内存需求,27B模型的VRAM从54GB降至14.1GB,支持在消费级GPU上运行,用户可在RTX 3090等设备上轻松使用,提升AI功能。

一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型

机器之心
机器之心 · 2025-04-20T02:16:00Z

本研究提出了一种新方法“MoE专家压缩套件”(MC-Suite),旨在解决稀疏激活混合专家(SMoE)模型的冗余和内存需求问题。通过迭代修剪和微调机制,优化专家丢弃过程,显著提升了SMoE的能力,尤其是指令执行能力,为混合专家模型的高效性和可扩展性提供了重要见解。

Finding Outstanding Experts in Mixture of Experts: A Unified Study on Expert Dropping Strategies and Observations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

该研究提出了一种个性化扩散模型的方法,有效降低了训练内存需求8.2倍,同时保持个性化性能。

无需反向传播的量化扩散模型的高效个性化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

DeepSeek团队推出的CoE(Chain-of-Experts)技术通过迭代机制将内存需求降低17.6%-42%。该技术允许专家在单层内串行通信,提升稀疏MoE模型的性能和资源效率。实验表明,在相同计算预算下,验证损失显著降低,专家组合自由度大幅增加。此技术由Zihan Wang等人提出,旨在优化稀疏神经网络的信息处理。

DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法

量子位
量子位 · 2025-03-04T07:49:06Z
MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能

AIxiv专栏促进学术交流,报道超过2000篇内容。UT Austin与Meta AI联合推出APOLLO训练策略,显著降低大语言模型的内存需求并提升性能,为资源有限的研究者提供高效训练的新方案。

MLSys’25 | 极低内存消耗:用SGD的内存成本实现AdamW的优化性能

机器之心
机器之心 · 2025-02-27T03:41:56Z

本研究提出了MaZO框架,旨在解决大型语言模型在多任务微调中的高内存需求问题。通过权重重要性度量和多任务权重更新掩码,MaZO有效降低了参数空间维度,减轻了任务冲突,实验结果表明其性能优于一阶优化方法。

MaZO: Masked Zeroth-Order Optimization for Multi-Task Fine-Tuning of Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种高效的优化器设计方法,开发了RACS和Alice优化器,以解决大语言模型的低内存需求和快速收敛问题,显著提升了LLaMA预训练的收敛速度和性能。

Efficient Design of Large Language Model Optimizers via Low-Rank Extended Structured Fisher Approximation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了BalanceKV方法,旨在解决大语言模型在长上下文生成中的高内存需求问题。通过几何采样提高了生成精度,实验结果表明其性能显著优于现有方法。

BalanceKV: KV Cache Compression via Differential Theory

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z

本研究提出了一种转换器调优技术,通过引入代码属性图的结构和依赖信息,解决了资源受限环境中大型语言模型的内存需求问题。该方法在减少可训练参数的同时,保持了与全参数微调相当的性能,展现出显著的应用潜力。

Transformer Tuning: Efficient Model Adaptation for Software Tasks Using Code Property Graphs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究比较了休眠多臂赌博机中的拉格朗日指数策略(LIP)与惠特尔指数策略(WIP)的性能。结果表明,LIP在WIP表现不佳时仍能保持良好效果,并显著减少内存需求。此外,研究分析了重启模型的拉格朗日指数,并提供了均匀赌博机的渐近最优性的新证明。

Lagrangian Index Policy for Restless Bandits with Average Reward

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本文提出的FAST-Splat方法克服了现有语义高斯色彩化的局限,能够实现精确的语义对象定位,并在训练和渲染速度及内存需求上优于传统方法。

FAST-Splat:快速、无歧义的高斯色彩语义传递

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-20T00:00:00Z

本研究提出了BitMoD,通过算法与硬件协同设计,解决了大语言模型的内存需求问题,实现高效加速并保持高准确率。

BitMoD: Accelerating Large Language Models with Bit-Ordered Mixed Data Types

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本研究提出了一种准无重量变压器(QuWeiT)方法,旨在解决变压器模型的高计算和内存需求问题。实验结果表明,QuWeiT在CIFAR-10数据集上实现了95.64%的准确率,能效提升了2.2倍。

缩小巨人:低能耗推理的准无重量变压器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-04T00:00:00Z
解锁大型语言模型的高效训练:深度优化器状态

本文介绍了一种名为“深度优化器状态”的新方法,旨在提高大型语言模型的训练效率。该方法通过交错卸载、数据管理和可扩展优化,显著减少了50%的GPU使用时间,解决了高内存需求和I/O瓶颈问题,为大型AI模型的高效训练提供了重要进展。

解锁大型语言模型的高效训练:深度优化器状态

DEV Community
DEV Community · 2024-11-02T07:15:13Z

本研究提出FusedInf模型交换方法,解决边缘计算中无服务器推理服务的资源限制问题。通过将多个模型组合为有向无环图,执行速度提升14%,内存需求降低至17%。

FusedInf: Efficient DNN Model Exchange for Edge On-Demand Serverless Inference Services

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究提出了一种通过池化压缩激活图的方法,以减少深度神经网络在训练中的内存需求。研究表明,这种方法能够降低29%的内存消耗,同时保持预测准确性。

更少的内存意味着更小的GPU:压缩激活的反向传播

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z

选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如计算复杂度和内存需求。研究发现,SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中,8B参数的Mamba、Mamba-2和Transformer模型进行了比较,结果显示Mamba-2-Hybrid在12个任务上超过了Transformer。进一步实验表明混合模型在长期上下文任务中继续匹配或超越了Transformer。

震撼视觉语言模型:比较变压器和结构状态空间模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z

选择性状态空间模型(SSMs)如Mamba克服了Transformer的一些缺点,例如计算复杂度和内存需求。研究发现,SSMs在语言建模能力上可以达到或超越Transformer。在大规模实验中,8B参数的Mamba、Mamba-2和Transformer模型进行了比较,结果显示纯SSMs在许多任务上达到或超越了Transformers,但在需要强大的复制或上下文学习能力或长期推理的任务上,它们落后于Transformers。然而,8B的Mamba-2-Hybrid在所有12个标准任务上超过了8B Transformer,并且在生成推理标记时速度最多快8倍。在额外的长期上下文任务中,混合模型继续紧密匹配或超越了Transformer。

Jamba-1.5:大规模混合Transformer-Mamba模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-22T00:00:00Z

为了解决大型语言模型的内存需求和推断成本问题,提出了一种高效的仅权重量化方法。通过减少内存消耗和加速推断,利用预训练模型的权重来确保最小质量降低。适用于混合专家模型和密集模型,无需额外微调。通过自适应的量化粒度解决挑战和问题,展示了方法的有效性。实现了高效的GPU矩阵乘法和解量化算法,支持不同激活和权重的乘法。在大规模开源模型上评估,展示了最小的准确性损失和高吞吐量。

MARLIN:大型语言模型的混合精度自回归并行推断

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码