小红花·文摘

在内存受限环境中使用混合精度和梯度检查点训练模型

MachineLearningMastery.com ·

本文介绍了Linux定时器的基本概念、类型及编程接口，适用于用户空间和内核空间。定时器用于延时执行和周期性任务调度，支持低精度和高精度定时。文章还提供最佳实践和示例，帮助读者掌握Linux定时器的使用。

Linux 定时器详解：从用户空间到内核空间的全面指南

极客技术博客’s Blog ·

本文分析了论文《Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention》中低精度Attention计算的偏差问题，指出低精度运算导致的舍入误差可能引发MaxLogit爆炸等训练异常。作者提出通过调整计算公式消除偏差，并探讨注意力集中对训练崩溃的影响。

低精度Attention可能存在有偏的舍入误差

科学空间|Scientific Spaces ·

模型量化是将高精度模型转为低精度模型的过程，能有效降低显存占用并提升推理速度。常见的量化方法有GGUF、GPTQ和AWQ，适用于不同场景，优化计算效率和存储需求。

什么是模型量化

陈少文的博客 ·

新技术“noise_step”使得在1.58-bit低精度下训练GPT-3模型成为可能，算力和存储需求分别减少97%和90%。该方法无需反向传播，通过随机性生成梯度估计，适合分布式训练，提升效率。

算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

量子位 ·

英伟达又赚到了！FlashAttention3来了：H100利用率飙升至75%

机器之心 ·

在Linux操作系统中，定时器扮演关键角色，用于执行延迟任务。Linux内核有高精度和低精度两种定时器。低精度定时器基于时钟中断实现，使用时间轮数据结构快速查找到期定时器。定时器根据超时时间存放在不同级别的数组中，每个数组有一个到期指针。定时器在时钟中断中执行，到期指针移动到下一个位置。内核使用timer_list对象表示定时器，通过add_timer函数添加定时器，run_timer_list函数执行到期定时器。

图解｜Linux内核低精度定时器原理

良许Linux教程网 ·

ModuLoRA是一种内存高效的大型语言模型微调算法，支持在只有一个48GB的GPU上以3位或4位精度对具有65B参数的语言模型进行微调。该算法通过将任何用户指定的权重量化器与低秩适配器(LoRAs)结合使用，适应动态生成来自自定义黑盒量化模块的低精度语言模型权重。在实验中，ModuLoRA在文本分类、自然语言推理和指令跟随任务上获得了有竞争力的性能，并且在使用比现有方法更少的内存的同时，超过了流行的摘要任务的最新ROUGE分数。同时，该文还发布了一系列低精度模型，包括第一个3位指令跟随型Alpaca LLMs系列，作为LLMTOOLS的一部分。

ModuLoRA: 将 3 位 LLMs 在消费级 GPU 上进行微调与模块量化器集成

BriefGPT - AI 论文速递 ·

该文研究了三种不同架构在不同精度下的校准性能，发现校准质量与量化质量呈正相关。GhostNet-VGG在低精度下表现最为稳定，温度缩放可以改善量化网络的校准误差。该研究为可解释可靠的EdgeML提供了更多机会。

现代量化高效神经网络的校准

BriefGPT - AI 论文速递 ·