小红花·文摘 - 小红花技术领袖俱乐部

Ollama量化全指南：3种方法+量化级别参考，普通电脑也能跑大模型

Ollama量化全指南：3种方法+量化级别参考，普通电脑也能跑大模型

人言兑 ·

低位推理如何实现高效的人工智能

低位推理如何实现高效的人工智能

Dropbox Tech Blog ·

逐步量化大型语言模型：将FP16模型转换为GGUF

逐步量化大型语言模型：将FP16模型转换为GGUF

MachineLearningMastery.com ·

开源新王！首次干翻 GPT-5，实测 Kimi K2 Thinking，中国 AI 杀疯了

开源新王！首次干翻 GPT-5，实测 Kimi K2 Thinking，中国 AI 杀疯了

爱范儿 ·

Redis查询引擎现已支持量化和降维技术

Redis查询引擎现已支持量化和降维技术

Redis Blog ·

vLLM 是一款加速大语言模型推理的框架，解决了内存管理瓶颈，实现了 KV 缓存内存的零浪费。它支持多种量化技术和 LoRA 适配器，并提供离线推理的示例和使用指南。

【vLLM 学习】Lora With Quantization Inference

HyperAI超神经 ·

百度推出FastDeploy 2.0，支持高效部署文心4.5等大模型，具备易用性、高性能推理和多硬件兼容性。通过量化技术降低资源需求，提升推理性能，助力企业和研究者应用大模型。

FastDeploy 2.0：大模型高效部署套件，文心4.5原生，释放最优推理性能！

百度大脑 ·

研究团队首次系统评估了Qwen3在低比特量化下的鲁棒性，发现其在8比特时性能接近无损，但在4比特及以下时显著下降，尤其在复杂任务中。Qwen3的预训练使其对量化敏感，需要创新量化技术以保持性能。

首次系统评估Qwen3在量化下的鲁棒性：8bit下仍保持近乎无损性能

量子位 ·

微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

InfoQ ·

在Word中使用强大的Gemma 3 QAT模型（100%私密）

在Word中使用强大的Gemma 3 QAT模型（100%私密）

DEV Community ·

本研究探讨了在资源受限的边缘设备上部署大型语言模型的挑战，采用量化技术以提高计算效率、降低功耗和响应延迟，同时保持推理质量，推动低功耗AI的应用。

LLMPi: Optimizing Large Language Models for High Throughput on Raspberry Pi

BriefGPT - AI 论文速递 ·

在 AWS Graviton 上运行大语言模型：CPU 推理性能实测与调优指南

在 AWS Graviton 上运行大语言模型：CPU 推理性能实测与调优指南

亚马逊AWS官方博客 ·

本文讨论了机器学习专家Tim Dmer的讲座，重点在于量化技术如何提高基础模型的效率和可访问性。Dmer的研究旨在通过将模型从16位压缩到8位或4位，降低对高性能硬件的需求。他介绍了Kora方法，通过在16位适配器上进行4位微调，解决了大模型资源消耗过高的问题，并强调了处理异常值的重要性，以优化计算效率而不影响模型性能。

卡内基梅隆大学高级自然语言处理春季2025（15）：量化技术（嘉宾：Tim Dettmers）

Josherich的博客 ·

为什么向量量化对人工智能工作负载至关重要

为什么向量量化对人工智能工作负载至关重要

MongoDB ·

本研究提出了一种新颖的马特里俄罗斯套娃量化技术，解决了低精度量化模型在质量与计算成本之间的权衡问题。该方法支持在单一模型中实现不同精度的量化，使得int2精度模型的准确率提高高达10%。

Matryoshka Quantization

BriefGPT - AI 论文速递 ·

内存高效的人工智能训练方法在保持准确性的同时减少75%的内存使用

内存高效的人工智能训练方法在保持准确性的同时减少75%的内存使用

DEV Community ·

量化的力量：压缩GPT-2，释放速度

量化的力量：压缩GPT-2，释放速度

DEV Community ·

本文介绍了一种名为VidTok的开源视频标记器，旨在解决视频生成和理解中的像素级冗余问题。VidTok结合了卷积层和缩放模块等架构改进，并采用有限标量量化技术，显著提升了性能，优于现有方法。

VidTok: A Versatile Open-Source Video Tokenizer

BriefGPT - AI 论文速递 ·

本文介绍了大规模语言模型的有监督微调过程，强调了从“预训练-微调”到高效微调技术（如LoRA）的演变。随着模型规模的扩大，少样本学习能力增强，指令微调提升了模型对人类指令的理解。量化技术降低了计算复杂度，DeepSpeed Chat框架简化了训练过程，并结合RLHF提升了模型性能。

智慧之锤｜如何通过有监督微调锻造大模型

京东科技开发者 ·

本研究提出了一种结合显著性引导训练与量化技术的深度神经网络学习方案，旨在提高资源受限环境下模型的可解释性和效率，且不损失准确性。

Quantization and Interpretable Learning Scheme for Deep Neural Networks in Classification Tasks

BriefGPT - AI 论文速递 ·