小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了RAG(检索增强生成)中的存储与检索层,重点介绍向量索引算法的选择和量化方法,以及2024-2026年工业界的趋势。文章分为四部分:算法底层、产品选型、工程实操和图RAG与趋势,提供实用的参数和代码示例。向量检索主要使用近似最近邻(ANN)算法,推荐HNSW作为工业标准,并结合量化技术以降低内存占用。最后,GraphRAG结合知识图谱与向量检索,提升多跳推理能力。

【大模型基础设施工程】18:向量库与图 RAG

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本研究提出了LogQuant,一种基于对数过滤机制的2位量化方法,显著提升KV缓存的内存效率和性能。在大语言模型推理中,该方法提高了吞吐量和准确性,尤其在数学和代码补全任务上,准确性改善达40%至200%。

LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本研究提出了一种新的即插即用KV缓存量化方法VidKV,旨在解决视频大型语言模型在处理长视频时的内存瓶颈问题。该方法将KV缓存压缩至低于2位,并通过通道级别量化实现精度与性能的平衡。

Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一种层敏感的量化方法,解决了现有方法在处理大规模神经网络时未考虑各层量化难度的问题。通过识别量化困难的层并分配更多内存预算,提出了SensiBoost和KurtBoost方法,显著提高了量化精度,在LLama模型上实现了9%的困惑度提升,仅增加2%的内存预算。

Towards Superior Quantization Accuracy: A Layer-Sensitive Approach

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z

本研究提出HALO框架,解决传统量化方法在硬件适应性和效率上的不足。通过硬件感知后训练量化,优化关键路径延迟,实现动态频率调整。研究表明,HALO在TPU和GPU上平均提升性能270%,节省51%能量,同时保持稳定精度。

HALO: Hardware-Aware Quantization and Low Critical-Path Delay Weights for Accelerating Large-Scale Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
DFSQ:用于超分辨率网络的分布灵活的子集量化方法 | 厦门大学纪荣嵘团队

图像超分辨率(SR)技术旨在从低分辨率图像恢复高分辨率图像,但现有模型在资源受限设备上部署困难。本文提出了一种分布灵活的子集量化方法(DFSQ),通过归一化和快速量化点选择,显著提高了计算效率,尤其在低比特情况下表现优异,验证了其有效性。

DFSQ:用于超分辨率网络的分布灵活的子集量化方法 | 厦门大学纪荣嵘团队

实时互动网
实时互动网 · 2025-02-19T06:42:25Z

本研究探讨大型语言模型的记忆现象及其隐私和安全风险。通过分析记忆与训练时长、数据集规模和样本相似性的关系,提出量化方法,并为降低风险提供理论和实证支持。

大型语言模型中的偏斜记忆:量化与分解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-03T00:00:00Z

本文提出了一种新颖的混合精度量化方法,旨在提高语音基础模型的量化效率。该方法结合了混合精度学习与模型参数估计,显著提升了压缩比,缩短了压缩时间,同时保持了单词错误率不变,展现了良好的实际应用前景。

Effective and Efficient Mixed-Precision Quantization of Speech Foundation Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-07T00:00:00Z
面向低比特通信的张量并行大语言模型推理

本文介绍了一种量化方法,旨在提升大语言模型(LLM)在服务器上的推理效率。该方法将通信特征值从16位降低至4.2位,同时几乎保持原有性能,Gemma 2 27B和Llama 2 13B的性能分别为98.0%和99.5%。

面向低比特通信的张量并行大语言模型推理

Apple Machine Learning Research
Apple Machine Learning Research · 2024-11-19T00:00:00Z

该研究提出了一种新方法,将服务器大型语言模型推理中的通信成本从16位降低至4.2位,同时保持约98.0%和99.5%的原始性能,显示出显著的应用潜力。

面向低比特通信的张量并行大语言模型推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-12T00:00:00Z

本研究分析了卡尔德隆非宗教作品中的性别描绘,发现男女角色存在显著差异,并通过量化方法识别影响性别分类的文本特征,具有重要的文化分析价值。

卡尔德隆·德·拉·巴尔卡喜剧中性别描绘的计算分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

本研究提出了一种基于嵌套晶格的量化方法,解决了矩阵乘法加速中的不足,明确了近似误差,并在高斯矩阵下达到了下界,证明其渐近最优。这为提升大语言模型的矩阵乘法性能提供了理论支持。

Optimal Quantization for Matrix Multiplication

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

量化方法对深度神经网络的高效部署非常重要。本文介绍了一种基于梯度的后训练量化方法(GPTQ),展示了其在权重选择、特征增强和校准集方面的稳定性。提出了设计更高效GPTQ方法的原则,并引入基于重要性的混合精度技术,提升了GPTQ方法和网络性能,为设计可扩展且高效的量化方法提供了新可能。

约束指导的神经网络模型量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-30T00:00:00Z

现代目标检测器中普遍出现任务不协调问题,影响检测器性能。本文提出了一种用于目标检测的协调量化方法(HQOD),包含任务相关损失和协调的对交并比损失。HQOD 可以轻松集成到不同的量化训练算法和检测器中。在 MS COCO 数据集上,我们的模型实现了 39.6% 的最新平均精度(mAP),超过了完全精度模型的性能。

HQOD: 目标检测的和谐量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

该研究提出了一种新的量化方法来预测马里、尼日利亚、叙利亚和也门四个国家在地方层面上连续60天的食物消费水平。研究发现Reservoir Computing模型在食品安全领域具有抗过拟合和高效训练的特点,为建立全球数据驱动的早期预警系统奠定了基础。

利用储水池计算通过空间相关性预测远距离地区的未观测气候时间序列数据

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

本研究探讨了大型语言模型中的量化方法,发现INT4量化在生成类别任务中表现不佳,而FP6量化在准确性和多功能性方面具有优势。为了适应不同的AI硬件并实现最佳性能,提出了一种用于FP6的新设计。该研究为当前LLMs中使用的4位量化方法提供了有希望的解决方案。

从学生中学习:应用 t - 分布来探索 LLM 的准确和高效格式

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-06T00:00:00Z

本文研究了大规模数据分析模型中使用的量化方法及其超参数选择。通过统计物理学中的典型案例分析,发现量化宽度对模型的影响,量化有助于减轻过拟合问题。非均匀量化可以增强稳定性。

典型案例分析中的权重量化对模型学习的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-30T00:00:00Z

本研究探讨了大型语言模型中的量化方法,发现INT4量化在生成类别任务中表现不佳,而FP6量化在准确性和多功能性方面具有优势。提出了一种用于FP6的新设计,以适应不同的AI硬件并实现最佳性能。通过该设计,FP6可以成为当前语言模型中使用的有希望的4位量化方法之一。

FP6-LLM: 通过 FP6 中心算法系统共同设计高效服务大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-25T00:00:00Z
通过重新评分恢复准确性

量化方法如标量、二进制或乘积量化可以压缩向量以节省内存,但可能降低相似性搜索的准确性。为提高准确性,可以采用过采样和重新评分。过采样增加候选数量,提升找到相关向量的机会;重新评分基于额外标准重新评估候选,确保更高的准确性和相关性。最终通过重新排名确定最优候选。

通过重新评分恢复准确性

Qdrant - Vector Database
Qdrant - Vector Database · 1970-01-01T08:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码