小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
大多数杰出AI项目壮观失败的技术飞跃

该文章介绍了一款AI性能优化工具包,提供混合精度、层融合和批量大小优化等多种方法,旨在提升模型推理和训练性能,降低内存使用和成本。

大多数杰出AI项目壮观失败的技术飞跃

The New Stack
The New Stack · 2026-03-09T11:00:46Z
在内存受限环境中使用混合精度和梯度检查点训练模型

训练语言模型需要大量内存,尤其是处理长序列数据。本文介绍了在内存受限环境中训练模型的技术,包括低精度浮点数、混合精度训练和梯度检查点,这些方法能有效节省内存并提升训练效率。

在内存受限环境中使用混合精度和梯度检查点训练模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-24T17:43:03Z
无需增加GPU的三种加速模型训练的方法

本文介绍了三种无需增加GPU即可加速模型训练的方法:混合精度与内存优化、梯度累积模拟大批量训练,以及ZeRO智能分片与卸载。这些技术有效提升训练速度与稳定性,减少内存占用。

无需增加GPU的三种加速模型训练的方法

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-16T17:14:34Z

本研究提出了一种新方法,通过在小数据集上搜索量化策略并推广到大规模数据集,解决了混合精度量化方法的计算开销问题。实验结果表明,该方法在CIFAR10数据集上达到了与ImageNet相当的准确度,同时显著降低了计算成本,效率提高了150%。

Learning from Loss Landscape: Achieving Generalizable Mixed-Precision Quantization via Adaptive Sharpness-Aware Gradient Aligning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种新颖的后训练量化方法Pack-PTQ,旨在解决低比特情况下的准确性下降问题。通过自适应打包机制和混合精度量化,Pack-PTQ有效保留了块间依赖性,显著提升了量化性能。实验结果表明,其在2D图像和3D点云分类任务中优于现有技术。

Pack-wise Post-training Quantization: Advancing Post-training Quantization of Neural Networks through Pack-wise Reconstruction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出了一种新的混合精度后训练量化方法——任务-电路量化(TaCQ),通过将关键任务权重保持为16位,显著提高了在2至3位量化条件下的模型性能,同时仅增加了少量内存开销。

Task-Circuit Quantization: Compression through Knowledge Localization and Interpretability

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出了优化推理系统Bitnet.cpp,解决了三元大型语言模型在边缘推理中的效率问题。该系统采用新型混合精度矩阵乘法库,实现了高效无损推理,速度比全精度快6.25倍,推动了该领域的发展。

Bitnet.cpp: Efficient Edge Inference for Ternary Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种混合精度策略,用于量化FP4精度的训练方法,旨在解决大型语言模型训练中的计算需求问题。实验结果表明,该策略在降低计算成本的同时,能够达到与BF16和FP8相当的准确性。

Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
有效的机器学习模型Python内存优化十大技巧

本文介绍了机器学习模型的内存优化技术,包括混合精度训练、模型量化、梯度检查点、有效数据加载、模型剪枝和知识蒸馏。这些方法能显著降低内存使用,提高训练效率,适用于大规模机器学习项目。

有效的机器学习模型Python内存优化十大技巧

DEV Community
DEV Community · 2025-02-07T08:50:19Z

本文提出了一种新颖的混合精度量化方法,旨在提高语音基础模型的量化效率。该方法结合了混合精度学习与模型参数估计,显著提升了压缩比,缩短了压缩时间,同时保持了单词错误率不变,展现了良好的实际应用前景。

Effective and Efficient Mixed-Precision Quantization of Speech Foundation Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z

本研究提出了一种新颖的ResQ方法,旨在解决超大语言模型后训练量化中的高量化误差问题。通过主成分分析,ResQ在低秩子空间中优化激活系数,实现最佳混合精度量化,表现优异。

ResQ:具有低秩残差的超大语言模型混合精度量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出SKIM方法,结合K均值聚类与混合精度,优化比特分配,显著提升量化模型性能。3位量化的LLaMA模型困惑度与全精度模型的差距缩小了16.3%。

SKIM: Pushing the Limits of Post-Training Quantization with Arbitrary Bit Quantization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
扩散模型的1.99位压缩:BitsFusion量化

本文介绍了一种新型混合精度量化方法BitsFusion,能够将扩散模型的权重压缩至平均1.99位,同时保持高性能。BitsFusion通过权重分组和不同精度量化,显著提升了内存效率和运行速度。研究表明,BitsFusion在多个基准测试中优于其他量化方法,具有重要应用潜力。

扩散模型的1.99位压缩:BitsFusion量化

DEV Community
DEV Community · 2024-11-01T09:46:30Z

清华大学PACMAN实验室发布了MixQ开源系统,支持8比特和4比特混合精度推理,实现大模型的近无损量化并提升推理速度。MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。该系统已支持多个主流大模型,并在SC’24会议上发表。其设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。

清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐

量子位
量子位 · 2024-10-21T06:00:32Z

本文探讨了大型语言模型中键值(KV)缓存的优化方法,提出了混合精度KV缓存(MiKV)和CSKV技术,以降低内存占用并提高推理效率。这些方法显著减少内存开销,提升吞吐量,同时保持模型性能,达到最高95%的压缩率。

SimLayerKV:用于层级KV缓存减少的简单框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

Colossal-AI升级了混合精度训练,支持BF16和FP8方案,实现平均30%加速,降低成本并保证收敛性。FP8通过实时缩放提高效率,适合大模型硬件需求,多卡并行训练效果显著。支持多种并行方式,使用简单,无需额外编译。

一行代码训练成本再降30%,AI大模型混合精度训练再升级|开源

量子位
量子位 · 2024-09-25T10:07:03Z

本文介绍了一种基于动态更新的FP8线性层缩放方法,旨在提高大型语言模型(如GPT和Llama 2)的训练效率。研究表明,该方法在保持性能的同时,消除了矩阵乘法操作,并通过FP8混合精度训练框架显著降低了内存使用和提高了速度。此外,提出了新的训练方法和信号传播理论,以改善深度模型的训练效果,提升多种任务的性能。

Scalify: 针对高效低精度 LLM 训练的规模传播

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-24T00:00:00Z

本文探讨了FP8低位数据格式在大规模语言模型训练中的应用,提出了一种新的FP8混合精度框架,显著提高了训练效率和内存使用。实验表明,该方法在H100 GPU上比BF16框架更快,并在多项任务中表现出色,展示了浮点量化在资源受限环境中的潜力。

从 FP8 回到 FP 减少精度对 LLM 训练稳定性的效果量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z

本文探讨了大型语言模型中的键值缓存压缩技术,提出了混合精度KV缓存(MiKV)和质量自适应量化方案(QAQ),显著提高了缓存效率和生成质量。研究表明,通过多种量化方法,可以在不同模型上减少内存占用并提升推理性能,支持更长的上下文应用。

ZipCache:准确高效的键值缓存量化与显著令牌识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码