小红花·文摘 - 小红花技术领袖俱乐部

本文探讨了RAG（检索增强生成）中的存储与检索层，重点介绍向量索引算法的选择和量化方法，以及2024-2026年工业界的趋势。文章分为四部分：算法底层、产品选型、工程实操和图RAG与趋势，提供实用的参数和代码示例。向量检索主要使用近似最近邻（ANN）算法，推荐HNSW作为工业标准，并结合量化技术以降低内存占用。最后，GraphRAG结合知识图谱与向量检索，提升多跳推理能力。

【大模型基础设施工程】18：向量库与图 RAG

土法炼钢兴趣小组的博客 ·

本研究提出了LogQuant，一种基于对数过滤机制的2位量化方法，显著提升KV缓存的内存效率和性能。在大语言模型推理中，该方法提高了吞吐量和准确性，尤其在数学和代码补全任务上，准确性改善达40%至200%。

LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation

BriefGPT - AI 论文速递 ·

本研究提出了一种新的即插即用KV缓存量化方法VidKV，旨在解决视频大型语言模型在处理长视频时的内存瓶颈问题。该方法将KV缓存压缩至低于2位，并通过通道级别量化实现精度与性能的平衡。

Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种层敏感的量化方法，解决了现有方法在处理大规模神经网络时未考虑各层量化难度的问题。通过识别量化困难的层并分配更多内存预算，提出了SensiBoost和KurtBoost方法，显著提高了量化精度，在LLama模型上实现了9%的困惑度提升，仅增加2%的内存预算。

Towards Superior Quantization Accuracy: A Layer-Sensitive Approach

BriefGPT - AI 论文速递 ·

本研究提出HALO框架，解决传统量化方法在硬件适应性和效率上的不足。通过硬件感知后训练量化，优化关键路径延迟，实现动态频率调整。研究表明，HALO在TPU和GPU上平均提升性能270%，节省51%能量，同时保持稳定精度。

HALO: Hardware-Aware Quantization and Low Critical-Path Delay Weights for Accelerating Large-Scale Language Models

BriefGPT - AI 论文速递 ·

DFSQ：用于超分辨率网络的分布灵活的子集量化方法 | 厦门大学纪荣嵘团队

DFSQ：用于超分辨率网络的分布灵活的子集量化方法 | 厦门大学纪荣嵘团队

实时互动网 ·

本研究探讨大型语言模型的记忆现象及其隐私和安全风险。通过分析记忆与训练时长、数据集规模和样本相似性的关系，提出量化方法，并为降低风险提供理论和实证支持。

大型语言模型中的偏斜记忆：量化与分解

BriefGPT - AI 论文速递 ·

本文提出了一种新颖的混合精度量化方法，旨在提高语音基础模型的量化效率。该方法结合了混合精度学习与模型参数估计，显著提升了压缩比，缩短了压缩时间，同时保持了单词错误率不变，展现了良好的实际应用前景。

Effective and Efficient Mixed-Precision Quantization of Speech Foundation Models

BriefGPT - AI 论文速递 ·

面向低比特通信的张量并行大语言模型推理

面向低比特通信的张量并行大语言模型推理

Apple Machine Learning Research ·

该研究提出了一种新方法，将服务器大型语言模型推理中的通信成本从16位降低至4.2位，同时保持约98.0%和99.5%的原始性能，显示出显著的应用潜力。

Tensor Parallelism for Low-Bit Communication in Large Language Model Inference

BriefGPT - AI 论文速递 ·

本研究分析了卡尔德隆非宗教作品中的性别描绘，发现男女角色存在显著差异，并通过量化方法识别影响性别分类的文本特征，具有重要的文化分析价值。

卡尔德隆·德·拉·巴尔卡喜剧中性别描绘的计算分析

BriefGPT - AI 论文速递 ·

本研究提出了一种基于嵌套晶格的量化方法，解决了矩阵乘法加速中的不足，明确了近似误差，并在高斯矩阵下达到了下界，证明其渐近最优。这为提升大语言模型的矩阵乘法性能提供了理论支持。

Optimal Quantization for Matrix Multiplication

BriefGPT - AI 论文速递 ·

量化方法对深度神经网络的高效部署非常重要。本文介绍了一种基于梯度的后训练量化方法（GPTQ），展示了其在权重选择、特征增强和校准集方面的稳定性。提出了设计更高效GPTQ方法的原则，并引入基于重要性的混合精度技术，提升了GPTQ方法和网络性能，为设计可扩展且高效的量化方法提供了新可能。

约束指导的神经网络模型量化

BriefGPT - AI 论文速递 ·

现代目标检测器中普遍出现任务不协调问题，影响检测器性能。本文提出了一种用于目标检测的协调量化方法（HQOD），包含任务相关损失和协调的对交并比损失。HQOD 可以轻松集成到不同的量化训练算法和检测器中。在 MS COCO 数据集上，我们的模型实现了 39.6% 的最新平均精度（mAP），超过了完全精度模型的性能。

HQOD: 目标检测的和谐量化

BriefGPT - AI 论文速递 ·

该研究提出了一种新的量化方法来预测马里、尼日利亚、叙利亚和也门四个国家在地方层面上连续60天的食物消费水平。研究发现Reservoir Computing模型在食品安全领域具有抗过拟合和高效训练的特点，为建立全球数据驱动的早期预警系统奠定了基础。

利用储水池计算通过空间相关性预测远距离地区的未观测气候时间序列数据

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型中的量化方法，发现INT4量化在生成类别任务中表现不佳，而FP6量化在准确性和多功能性方面具有优势。为了适应不同的AI硬件并实现最佳性能，提出了一种用于FP6的新设计。该研究为当前LLMs中使用的4位量化方法提供了有希望的解决方案。

从学生中学习：应用 t - 分布来探索 LLM 的准确和高效格式

BriefGPT - AI 论文速递 ·

本文研究了大规模数据分析模型中使用的量化方法及其超参数选择。通过统计物理学中的典型案例分析，发现量化宽度对模型的影响，量化有助于减轻过拟合问题。非均匀量化可以增强稳定性。

典型案例分析中的权重量化对模型学习的影响

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型中的量化方法，发现INT4量化在生成类别任务中表现不佳，而FP6量化在准确性和多功能性方面具有优势。提出了一种用于FP6的新设计，以适应不同的AI硬件并实现最佳性能。通过该设计，FP6可以成为当前语言模型中使用的有希望的4位量化方法之一。

FP6-LLM: 通过 FP6 中心算法系统共同设计高效服务大型语言模型

BriefGPT - AI 论文速递 ·

通过重新评分恢复准确性

通过重新评分恢复准确性

Qdrant - Vector Database ·