小红花·文摘

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

机器之心 ·

现在可以使用SANA 4K模型在8GB VRAM以下生成16百万像素（4096x4096）原始图像及更多

DEV Community ·

最佳开源图像转视频模型CogVideoX1.5-5B-I2V，表现相当不错，并针对低VRAM进行了优化

DEV Community ·

Kohya对FLUX LoRA（4GB GPU）和DreamBooth / 微调（6GB GPU）训练进行了重大改进

DEV Community ·

模型量化对模型精度影响的研究

编译程序 ·

本研究使用InAttention替代自注意力机制，解决了变压器模型在上下文长度增加时VRAM需求增加的问题。该方法使VRAM使用量与上下文长度线性增长，降低资源需求，支持在消费级GPU上处理长序列。研究表明，微调可以在不增加训练成本的情况下扩展上下文长度，提升长序列性能。

InAttention：变压器的线性上下文扩展

BriefGPT - AI 论文速递 ·

在深度学习中，选择合适的GPU很重要。推荐的高性价比GPU有NVIDIA GeForce RTX 3060、RTX 3050、GTX 1660 Ti、AMD Radeon RX 6700 XT和二手NVIDIA A100。选择时需考虑VRAM、CUDA核心、价格和未来需求。NVIDIA的GPU在深度学习框架中支持更广，适合预算有限的开发者。

NVidia GPU在Windows用户中提供了共享GPU内存功能，允许系统内存用作虚拟VRAM。这可以在GPU的专用视频内存不足时提供帮助，但会对性能产生影响。作者测试了将GPU内存溢出到RAM对LLM训练速度的影响，并发现尽可能填充PC的RAM并使用共享GPU内存没有太大意义。作者还测试了不同的卸载设置，并发现使用50%的GPU和50%的CPU几乎完全填满了VRAM而没有溢出。结果显示，使用50/50的GPU/CPU具有最高的每秒标记数和最快的第一个标记时间。使用100%的GPU卸载会导致更多的系统内存使用。作者得出结论，使用共享VRAM没有太大意义。

llama.cpp：CPU与GPU、共享VRAM与推理速度

DEV Community ·

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

现在可以使用SANA 4K模型在8GB VRAM以下生成16百万像素（4096x4096）原始图像及更多

最佳开源图像转视频模型CogVideoX1.5-5B-I2V，表现相当不错，并针对低VRAM进行了优化

Kohya对FLUX LoRA（4GB GPU）和DreamBooth / 微调（6GB GPU）训练进行了重大改进

模型量化对模型精度影响的研究

InAttention：变压器的线性上下文扩展

深度学习中的经济实惠GPU：预算有限开发者的最佳选择

llama.cpp：CPU与GPU、共享VRAM与推理速度