小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在内存受限环境中使用混合精度和梯度检查点训练模型

训练语言模型需要大量内存,尤其是处理长序列数据。本文介绍了在内存受限环境中训练模型的技术,包括低精度浮点数、混合精度训练和梯度检查点,这些方法能有效节省内存并提升训练效率。

在内存受限环境中使用混合精度和梯度检查点训练模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-24T17:43:03Z

本文介绍了Linux定时器的基本概念、类型及编程接口,适用于用户空间和内核空间。定时器用于延时执行和周期性任务调度,支持低精度和高精度定时。文章还提供最佳实践和示例,帮助读者掌握Linux定时器的使用。

Linux 定时器详解:从用户空间到内核空间的全面指南

极客技术博客’s Blog
极客技术博客’s Blog · 2025-12-02T10:08:15Z

本文分析了论文《Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention》中低精度Attention计算的偏差问题,指出低精度运算导致的舍入误差可能引发MaxLogit爆炸等训练异常。作者提出通过调整计算公式消除偏差,并探讨注意力集中对训练崩溃的影响。

低精度Attention可能存在有偏的舍入误差

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-10-27T02:11:00Z

模型量化是将高精度模型转为低精度模型的过程,能有效降低显存占用并提升推理速度。常见的量化方法有GGUF、GPTQ和AWQ,适用于不同场景,优化计算效率和存储需求。

什么是模型量化

陈少文的博客
陈少文的博客 · 2025-09-06T00:00:00Z

新技术“noise_step”使得在1.58-bit低精度下训练GPT-3模型成为可能,算力和存储需求分别减少97%和90%。该方法无需反向传播,通过随机性生成梯度估计,适合分布式训练,提升效率。

算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了

量子位
量子位 · 2024-12-29T04:13:12Z
英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%

FlashAttention-3是一种快速且内存高效的注意力算法,用于加速语言模型。它利用三种主要技术来加速Hopper GPU的注意力:warp-specialization、交错块矩阵乘法和softmax操作,以及对低精度FP8的硬件支持。FlashAttention-3的速度达到了740 TFLOPS,比FlashAttention-2快1.5-2.0倍,可以在语言模型中使用更长的上下文。它提高了GPU利用率,以更低的精度提供更好的性能,并实现了对更长文本段的高效处理。文章还讨论了Hopper GPU的硬件特性以及异步和低精度处理的好处。

英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%

机器之心
机器之心 · 2024-07-12T07:23:35Z

在Linux操作系统中,定时器扮演关键角色,用于执行延迟任务。Linux内核有高精度和低精度两种定时器。低精度定时器基于时钟中断实现,使用时间轮数据结构快速查找到期定时器。定时器根据超时时间存放在不同级别的数组中,每个数组有一个到期指针。定时器在时钟中断中执行,到期指针移动到下一个位置。内核使用timer_list对象表示定时器,通过add_timer函数添加定时器,run_timer_list函数执行到期定时器。

图解|Linux内核低精度定时器原理

良许Linux教程网
良许Linux教程网 · 2024-04-16T14:32:19Z

ModuLoRA是一种内存高效的大型语言模型微调算法,支持在只有一个48GB的GPU上以3位或4位精度对具有65B参数的语言模型进行微调。该算法通过将任何用户指定的权重量化器与低秩适配器(LoRAs)结合使用,适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中,ModuLoRA在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能,并且在使用比现有方法更少的内存的同时,超过了流行的摘要任务的最新ROUGE分数。同时,该文还发布了一系列低精度模型,包括第一个3位指令跟随型Alpaca LLMs系列,作为LLMTOOLS的一部分。

ModuLoRA: 将 3 位 LLMs 在消费级 GPU 上进行微调与模块量化器集成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-28T00:00:00Z

该文研究了三种不同架构在不同精度下的校准性能,发现校准质量与量化质量呈正相关。GhostNet-VGG在低精度下表现最为稳定,温度缩放可以改善量化网络的校准误差。该研究为可解释可靠的EdgeML提供了更多机会。

现代量化高效神经网络的校准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码