小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
大多数杰出AI项目壮观失败的技术飞跃

该文章介绍了一款AI性能优化工具包,提供混合精度、层融合和批量大小优化等多种方法,旨在提升模型推理和训练性能,降低内存使用和成本。

大多数杰出AI项目壮观失败的技术飞跃

The New Stack
The New Stack · 2026-03-09T11:00:46Z
在内存受限环境中使用混合精度和梯度检查点训练模型

训练语言模型需要大量内存,尤其是处理长序列数据。本文介绍了在内存受限环境中训练模型的技术,包括低精度浮点数、混合精度训练和梯度检查点,这些方法能有效节省内存并提升训练效率。

在内存受限环境中使用混合精度和梯度检查点训练模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-24T17:43:03Z
无需增加GPU的三种加速模型训练的方法

本文介绍了三种无需增加GPU即可加速模型训练的方法:混合精度与内存优化、梯度累积模拟大批量训练,以及ZeRO智能分片与卸载。这些技术有效提升训练速度与稳定性,减少内存占用。

无需增加GPU的三种加速模型训练的方法

MachineLearningMastery.com
MachineLearningMastery.com · 2025-10-16T17:14:34Z

本研究提出了一种新方法,通过在小数据集上搜索量化策略并推广到大规模数据集,解决了混合精度量化方法的计算开销问题。实验结果表明,该方法在CIFAR10数据集上达到了与ImageNet相当的准确度,同时显著降低了计算成本,效率提高了150%。

Learning from Loss Landscape: Achieving Generalizable Mixed-Precision Quantization via Adaptive Sharpness-Aware Gradient Aligning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了一种新颖的后训练量化方法Pack-PTQ,旨在解决低比特情况下的准确性下降问题。通过自适应打包机制和混合精度量化,Pack-PTQ有效保留了块间依赖性,显著提升了量化性能。实验结果表明,其在2D图像和3D点云分类任务中优于现有技术。

Pack-wise Post-training Quantization: Advancing Post-training Quantization of Neural Networks through Pack-wise Reconstruction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出了一种新的混合精度后训练量化方法——任务-电路量化(TaCQ),通过将关键任务权重保持为16位,显著提高了在2至3位量化条件下的模型性能,同时仅增加了少量内存开销。

Task-Circuit Quantization: Compression through Knowledge Localization and Interpretability

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出了优化推理系统Bitnet.cpp,解决了三元大型语言模型在边缘推理中的效率问题。该系统采用新型混合精度矩阵乘法库,实现了高效无损推理,速度比全精度快6.25倍,推动了该领域的发展。

Bitnet.cpp: Efficient Edge Inference for Ternary Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种混合精度策略,用于量化FP4精度的训练方法,旨在解决大型语言模型训练中的计算需求问题。实验结果表明,该策略在降低计算成本的同时,能够达到与BF16和FP8相当的准确性。

Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
有效的机器学习模型Python内存优化十大技巧

本文介绍了机器学习模型的内存优化技术,包括混合精度训练、模型量化、梯度检查点、有效数据加载、模型剪枝和知识蒸馏。这些方法能显著降低内存使用,提高训练效率,适用于大规模机器学习项目。

有效的机器学习模型Python内存优化十大技巧

DEV Community
DEV Community · 2025-02-07T08:50:19Z

本文提出了一种新颖的混合精度量化方法,旨在提高语音基础模型的量化效率。该方法结合了混合精度学习与模型参数估计,显著提升了压缩比,缩短了压缩时间,同时保持了单词错误率不变,展现了良好的实际应用前景。

Effective and Efficient Mixed-Precision Quantization of Speech Foundation Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z

本研究提出了一种新颖的ResQ方法,旨在解决超大语言模型后训练量化中的高量化误差问题。通过主成分分析,ResQ在低秩子空间中优化激活系数,实现最佳混合精度量化,表现优异。

ResQ:具有低秩残差的超大语言模型混合精度量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出SKIM方法,结合K均值聚类与混合精度,优化比特分配,显著提升量化模型性能。3位量化的LLaMA模型困惑度与全精度模型的差距缩小了16.3%。

SKIM: Pushing the Limits of Post-Training Quantization with Arbitrary Bit Quantization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
扩散模型的1.99位压缩:BitsFusion量化

本文介绍了一种新型混合精度量化方法BitsFusion,能够将扩散模型的权重压缩至平均1.99位,同时保持高性能。BitsFusion通过权重分组和不同精度量化,显著提升了内存效率和运行速度。研究表明,BitsFusion在多个基准测试中优于其他量化方法,具有重要应用潜力。

扩散模型的1.99位压缩:BitsFusion量化

DEV Community
DEV Community · 2024-11-01T09:46:30Z

清华大学PACMAN实验室发布了MixQ开源系统,支持8比特和4比特混合精度推理,实现大模型的近无损量化并提升推理速度。MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。该系统已支持多个主流大模型,并在SC’24会议上发表。其设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。

清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐

量子位
量子位 · 2024-10-21T06:00:32Z

本文探讨了大型语言模型中键值(KV)缓存的优化方法,提出了混合精度KV缓存(MiKV)和CSKV技术,以降低内存占用并提高推理效率。这些方法显著减少内存开销,提升吞吐量,同时保持模型性能,达到最高95%的压缩率。

SimLayerKV:用于层级KV缓存减少的简单框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

Colossal-AI升级了混合精度训练,支持BF16和FP8方案,实现平均30%加速,降低成本并保证收敛性。FP8通过实时缩放提高效率,适合大模型硬件需求,多卡并行训练效果显著。支持多种并行方式,使用简单,无需额外编译。

一行代码训练成本再降30%,AI大模型混合精度训练再升级|开源

量子位
量子位 · 2024-09-25T10:07:03Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码