小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Ollama量化全指南:3种方法+量化级别参考,普通电脑也能跑大模型

本文介绍了Ollama大模型的量化技术,旨在降低模型对硬件资源的消耗,使其在普通电脑上流畅运行。量化通过降低参数精度,显著减少显存和内存占用,同时提升计算速度。文章详细说明了量化的原理、实操方法及不同量化级别的选择,适合新手快速上手。

Ollama量化全指南:3种方法+量化级别参考,普通电脑也能跑大模型

人言兑
人言兑 · 2026-04-25T17:05:35Z
低位推理如何实现高效的人工智能

近年来,大型机器学习模型在软件工程和科学研究等领域取得显著进展。随着Kimi-K2.5和GLM-5等模型的出现,低位推理技术有效解决了内存和计算需求。Dropbox利用这些模型提升搜索和理解能力,但也面临效率和资源使用的新挑战。量化技术通过降低数值精度提高速度和能效,MXFP格式为低位数据类型提供硬件支持,优化推理性能。

低位推理如何实现高效的人工智能

Dropbox Tech Blog
Dropbox Tech Blog · 2026-02-12T18:00:00Z
逐步量化大型语言模型:将FP16模型转换为GGUF

量化技术可以缩小大型语言模型的体积,使其在个人电脑上运行成为可能。本文介绍了如何将FP16模型转换为GGUF格式,包括模型精度类型、使用huggingface_hub获取模型、量化步骤及上传到Hugging Face的方法。量化通过降低存储精度显著减少内存需求,使大型模型更易于使用。

逐步量化大型语言模型:将FP16模型转换为GGUF

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-08T11:00:38Z
开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

Kimi K2 Thinking 是目前最大的开源模型,参数达到 1 万亿,表现优异,接近闭源模型。它在复杂推理、动态搜索和编程任务方面表现突出,并具备强大的工具调用能力。通过高效量化技术,推理速度显著提升,展现了开源模型的潜力与竞争力。

开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了

爱范儿
爱范儿 · 2025-11-07T07:42:22Z
Redis查询引擎现已支持量化和降维技术

Redis与Intel合作推出的量化技术使向量数据库的内存占用减少37%,提高查询速度,降低成本,且无需修改应用程序代码。SVS-LVQ和SVS-LeanVec优化数据表示,确保高效内存使用和搜索准确性,适用于多种嵌入类型。

Redis查询引擎现已支持量化和降维技术

Redis Blog
Redis Blog · 2025-09-02T00:00:00Z

vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈,实现了 KV 缓存内存的零浪费。它支持多种量化技术和 LoRA 适配器,并提供离线推理的示例和使用指南。

【vLLM 学习】Lora With Quantization Inference

HyperAI超神经
HyperAI超神经 · 2025-08-13T02:22:53Z

百度推出FastDeploy 2.0,支持高效部署文心4.5等大模型,具备易用性、高性能推理和多硬件兼容性。通过量化技术降低资源需求,提升推理性能,助力企业和研究者应用大模型。

FastDeploy 2.0:大模型高效部署套件,文心4.5原生,释放最优推理性能!

百度大脑
百度大脑 · 2025-07-24T12:44:20Z

研究团队首次系统评估了Qwen3在低比特量化下的鲁棒性,发现其在8比特时性能接近无损,但在4比特及以下时显著下降,尤其在复杂任务中。Qwen3的预训练使其对量化敏感,需要创新量化技术以保持性能。

首次系统评估Qwen3在量化下的鲁棒性:8bit下仍保持近乎无损性能

量子位
量子位 · 2025-05-09T08:09:17Z
微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

微软研究人员推出了BitNet b1.58 2B4T,这是首个使用1位权重原生训练的大型语言模型。该模型在计算成本和硬件需求上显著低于全精度模型,同时在多项任务上表现相当。BitNet通过自定义的BitLinear层和量化技术,减小了模型大小并提高了训练稳定性。此外,微软还开发了专用推理库bitnet.cpp,以支持1位模型的高效推理。未来将探索更先进的技术和多语言能力。

微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

InfoQ
InfoQ · 2025-04-23T11:00:00Z
在Word中使用强大的Gemma 3 QAT模型(100%私密)

Gemma 3 QAT模型通过量化技术降低内存使用,支持在个人GPU上运行,并可集成到Microsoft Word中,确保数据隐私且免除订阅费用。

在Word中使用强大的Gemma 3 QAT模型(100%私密)

DEV Community
DEV Community · 2025-04-22T11:05:58Z

本研究探讨了在资源受限的边缘设备上部署大型语言模型的挑战,采用量化技术以提高计算效率、降低功耗和响应延迟,同时保持推理质量,推动低功耗AI的应用。

LLMPi: Optimizing Large Language Models for High Throughput on Raspberry Pi

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z
在 AWS Graviton 上运行大语言模型:CPU 推理性能实测与调优指南

随着 ARM 架构和量化技术的发展,CPU 在大模型推理中展现出性价比优势。AWS Graviton 实例与 llama.cpp 工具链的测试表明,CPU 在边缘推理和成本敏感型业务中表现优异,尤其在低延迟和小吞吐量任务中更具优势。Graviton 系列的硬件和软件优化进一步提升了 CPU 性能,未来在大模型推理领域有望持续发挥潜力。

在 AWS Graviton 上运行大语言模型:CPU 推理性能实测与调优指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-03-17T04:04:16Z

本文讨论了机器学习专家Tim Dmer的讲座,重点在于量化技术如何提高基础模型的效率和可访问性。Dmer的研究旨在通过将模型从16位压缩到8位或4位,降低对高性能硬件的需求。他介绍了Kora方法,通过在16位适配器上进行4位微调,解决了大模型资源消耗过高的问题,并强调了处理异常值的重要性,以优化计算效率而不影响模型性能。

卡内基梅隆大学高级自然语言处理春季2025(15):量化技术(嘉宾:Tim Dettmers)

Josherich的博客
Josherich的博客 · 2025-03-14T00:00:01Z
为什么向量量化对人工智能工作负载至关重要

随着向量嵌入规模的扩大,内存使用和查询延迟增加,导致成本上升和用户体验下降。通过低精度格式存储嵌入,可以显著降低内存需求并加快检索速度。MongoDB Atlas简化了压缩向量的创建、存储和索引,支持AI应用的高效扩展。量化技术在保持准确性的同时,压缩高维嵌入,解决了大规模AI工作负载的内存、延迟和成本问题。

为什么向量量化对人工智能工作负载至关重要

MongoDB
MongoDB · 2025-02-27T15:00:00Z

本研究提出了一种新颖的马特里俄罗斯套娃量化技术,解决了低精度量化模型在质量与计算成本之间的权衡问题。该方法支持在单一模型中实现不同精度的量化,使得int2精度模型的准确率提高高达10%。

Matryoshka Quantization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z
内存高效的人工智能训练方法在保持准确性的同时减少75%的内存使用

ZOQO是一种新型优化方法,结合了零阶优化和量化技术,能够在保持模型性能的同时减少75%的内存使用,成功应用于图像分类和视觉任务。

内存高效的人工智能训练方法在保持准确性的同时减少75%的内存使用

DEV Community
DEV Community · 2025-02-08T06:58:56Z
量化的力量:压缩GPT-2,释放速度

通过量化技术,GPT-2模型实现了从资源密集型到高效工具的转变。采用8位和4位量化后,内存占用减少71%,推理速度提升39%。量化在保持功能的同时显著提高了效率。

量化的力量:压缩GPT-2,释放速度

DEV Community
DEV Community · 2025-01-26T17:24:37Z

本文介绍了一种名为VidTok的开源视频标记器,旨在解决视频生成和理解中的像素级冗余问题。VidTok结合了卷积层和缩放模块等架构改进,并采用有限标量量化技术,显著提升了性能,优于现有方法。

VidTok: A Versatile Open-Source Video Tokenizer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本文介绍了大规模语言模型的有监督微调过程,强调了从“预训练-微调”到高效微调技术(如LoRA)的演变。随着模型规模的扩大,少样本学习能力增强,指令微调提升了模型对人类指令的理解。量化技术降低了计算复杂度,DeepSpeed Chat框架简化了训练过程,并结合RLHF提升了模型性能。

智慧之锤|如何通过有监督微调锻造大模型

京东科技开发者
京东科技开发者 · 2024-12-11T01:50:21Z

本研究提出了一种结合显著性引导训练与量化技术的深度神经网络学习方案,旨在提高资源受限环境下模型的可解释性和效率,且不损失准确性。

Quantization and Interpretable Learning Scheme for Deep Neural Networks in Classification Tasks

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码