小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
逐步量化大型语言模型:将FP16模型转换为GGUF

量化技术可以缩小大型语言模型的体积,使其在个人电脑上运行成为可能。本文介绍了如何将FP16模型转换为GGUF格式,包括模型精度类型、使用huggingface_hub获取模型、量化步骤及上传到Hugging Face的方法。量化通过降低存储精度显著减少内存需求,使大型模型更易于使用。

逐步量化大型语言模型:将FP16模型转换为GGUF

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-08T11:00:38Z
Llama.cpp 和 GGUF 中的多模态嵌入

jina-embeddings-v4推出了先进的多模态嵌入,支持文本、图像和复杂文档的向量搜索。通过修改llama.cpp,实现了多模态嵌入的生成,解决了图像处理和注意力机制的问题。调试后,llama.cpp模型的嵌入结果与参考模型相近,未来可优化视觉编码器和支持多向量嵌入。

Llama.cpp 和 GGUF 中的多模态嵌入

Jina AI
Jina AI · 2025-09-09T23:33:16Z
为仅解码器嵌入模型优化GGUF

两周前,我们发布了jina-embeddings-v4的GGUF格式,以提高推理速度。现代嵌入模型与LLM几乎相同,主要区别在于输出类型。文章讨论了将现代嵌入模型适配GGUF格式的经验,包括去除视觉变换器和多向量投影器,最终得到三个任务特定的GGUF模型。

为仅解码器嵌入模型优化GGUF

Jina AI
Jina AI · 2025-08-13T00:15:18Z
用 Ollama?其實你在跑 llama.cpp!學會直接使用它,發揮更強性能!

Ollama 允许用户在本地运行大型语言模型,提供模型托管服务。核心技术为 llama.cpp,支持 GGUF 模型格式。指南介绍如何在 Jetson Orin Nano 上编译 llama.cpp、转换 GGUF 模型并进行量化,以提高推理速度和减少内存占用。完成模型准备后即可进行推理。

用 Ollama?其實你在跑 llama.cpp!學會直接使用它,發揮更強性能!

DEV Community
DEV Community · 2025-03-05T23:00:00Z
使用 SageMaker AI 运行 GGUF 格式的模型推理实践

随着人工智能的快速发展,GGUF格式应运而生,旨在提高大模型的存储和交换效率。该格式由Georgi Gerganov提出,广泛应用于开源社区,尤其是在Amazon SageMaker AI中,支持高效的LLM模型部署与推理。开发者通过自带容器(BYOC)方式灵活管理模型,降低资源消耗。

使用 SageMaker AI 运行 GGUF 格式的模型推理实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-02-12T06:26:09Z
m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

M4 Mac Mini发布后,其性价比引发讨论。测试AI性能时,使用ComfyUI框架需安装Python 3.11及相关依赖。运行Flux-dev-GGUF工作流时,16G内存版本效率低,建议购买时避开。尽管速度慢,但能耗低且噪音小。

m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

刘悦
刘悦 · 2024-12-09T00:00:00Z
使用Unsloth微调Llama 3.2

Unsloth是一个用户友好的框架,支持大语言模型的快速推理和微调,节省GPU内存。它能在旧GPU上实现类似ChatGPT的效果,并支持多种模型格式。本文介绍了如何使用Unsloth微调Llama 3.2模型,处理心理健康对话数据集,并将模型保存为GGUF格式。

使用Unsloth微调Llama 3.2

KDnuggets
KDnuggets · 2024-10-24T12:00:41Z
模块化:MAX 24.4 的新功能有哪些?macOS 上的 MAX、快速本地 Llama3、原生量化和 GGUF 支持

MAX 24.4版本在MacOS上发布,支持本地生成式AI模型。MAX Pipelines提供本地构建和云端部署生成式AI管道的工具链,具有行业领先的性能和多种功能。

模块化:MAX 24.4 的新功能有哪些?macOS 上的 MAX、快速本地 Llama3、原生量化和 GGUF 支持

Modular Blog
Modular Blog · 2024-06-25T00:00:00Z
GGML GGUF 文件格式漏洞

GGUF文件格式是用于存储和加载GGML库模型权重的二进制文件格式。GGUF格式最近在分发训练好的机器学习模型方面变得流行,并成为Llama-2中使用模型的常用格式之一。GGML库在解析输入文件时存在内存损坏漏洞,攻击者可以利用这些漏洞通过提供精心制作的gguf文件在受害者计算机上执行代码。已修复这些漏洞,并可从提交6b14d73中获取补丁。

GGML GGUF 文件格式漏洞

Databricks
Databricks · 2024-03-22T10:23:38Z

Ollama是一个支持多种模型的工具,可以通过使用“ollama run”命令直接支持许多模型。对于不直接支持的模型,可以创建模型配置文件来加载它们。本文提供了使用Ollama加载GGUF模型文件的说明,并解释了模型配置文件中的参数。Ollama允许用户快速安装、启动和使用不同的模型。

Ollama 运行 GGUF 模型 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2024-03-10T02:02:00Z

GGUF是一种二进制模型文件格式,专为在CPU上快速加载和保存模型而设计。它采用多种技术来保存模型,包括紧凑的二进制编码格式、优化的数据结构和内存映射,使模型加载和使用更快速、资源消耗更低。GGUF还支持模型量化,将模型权重量化为较低位数的整数,降低模型大小和内存消耗,提高计算效率,同时平衡性能和精度。GGUF在HuggingFace上已有大量应用,文件名格式以'Q'开头表示量化位数,后跟特定变体,这些变体根据量化方案的不同而命名,影响模型的大小、性能和精度。

GGUF 模型 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2024-03-09T13:41:00Z

Meta公司发布了Llama 2,是一款开源大模型,训练数据集达2万亿Token,上下文长度扩展到4096。该模型在各基准测试上表现突出,可免费用于商业用途。GGUF是一种新的二进制模型文件,可以高效压缩深度学习模型,跨平台加载和运行模型。llama.cpp是Llama 2的运行时,用于转换和量化模型为GGUF文件。安装Ubuntu 20.04系统,下载Llama 2模型和llama.cpp库,转换和量化模型文件,实现聊天和嵌入功能。

如何创建GGUF模型文件?让你在本地电脑上体验Llama2大型语言模型

dotNET跨平台
dotNET跨平台 · 2023-11-12T23:42:54Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码