小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI
逐步量化大型语言模型:将FP16模型转换为GGUF

量化技术可以缩小大型语言模型的体积,使其在个人电脑上运行成为可能。本文介绍了如何将FP16模型转换为GGUF格式,包括模型精度类型、使用huggingface_hub获取模型、量化步骤及上传到Hugging Face的方法。量化通过降低存储精度显著减少内存需求,使大型模型更易于使用。

逐步量化大型语言模型:将FP16模型转换为GGUF

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-08T11:00:38Z
Llama.cpp 和 GGUF 中的多模态嵌入

jina-embeddings-v4推出了先进的多模态嵌入,支持文本、图像和复杂文档的向量搜索。通过修改llama.cpp,实现了多模态嵌入的生成,解决了图像处理和注意力机制的问题。调试后,llama.cpp模型的嵌入结果与参考模型相近,未来可优化视觉编码器和支持多向量嵌入。

Llama.cpp 和 GGUF 中的多模态嵌入

Jina AI
Jina AI · 2025-09-09T23:33:16Z
为仅解码器嵌入模型优化GGUF

两周前,我们发布了jina-embeddings-v4的GGUF格式,以提高推理速度。现代嵌入模型与LLM几乎相同,主要区别在于输出类型。文章讨论了将现代嵌入模型适配GGUF格式的经验,包括去除视觉变换器和多向量投影器,最终得到三个任务特定的GGUF模型。

为仅解码器嵌入模型优化GGUF

Jina AI
Jina AI · 2025-08-13T00:15:18Z
使用 SageMaker AI 运行 GGUF 格式的模型推理实践

随着人工智能的快速发展,GGUF格式应运而生,旨在提高大模型的存储和交换效率。该格式由Georgi Gerganov提出,广泛应用于开源社区,尤其是在Amazon SageMaker AI中,支持高效的LLM模型部署与推理。开发者通过自带容器(BYOC)方式灵活管理模型,降低资源消耗。

使用 SageMaker AI 运行 GGUF 格式的模型推理实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-02-12T06:26:09Z
m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

M4 Mac Mini发布后,其性价比引发讨论。测试AI性能时,使用ComfyUI框架需安装Python 3.11及相关依赖。运行Flux-dev-GGUF工作流时,16G内存版本效率低,建议购买时避开。尽管速度慢,但能耗低且噪音小。

m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

刘悦
刘悦 · 2024-12-09T00:00:00Z
模块化:MAX 24.4 的新功能有哪些?macOS 上的 MAX、快速本地 Llama3、原生量化和 GGUF 支持

MAX 24.4版本在MacOS上发布,支持本地生成式AI模型。MAX Pipelines提供本地构建和云端部署生成式AI管道的工具链,具有行业领先的性能和多种功能。

模块化:MAX 24.4 的新功能有哪些?macOS 上的 MAX、快速本地 Llama3、原生量化和 GGUF 支持

Modular Blog
Modular Blog · 2024-06-25T00:00:00Z
GGML GGUF 文件格式漏洞

GGUF文件格式是用于存储和加载GGML库模型权重的二进制文件格式。GGUF格式最近在分发训练好的机器学习模型方面变得流行,并成为Llama-2中使用模型的常用格式之一。GGML库在解析输入文件时存在内存损坏漏洞,攻击者可以利用这些漏洞通过提供精心制作的gguf文件在受害者计算机上执行代码。已修复这些漏洞,并可从提交6b14d73中获取补丁。

GGML GGUF 文件格式漏洞

Databricks
Databricks · 2024-03-22T10:23:38Z

Ollama是一个支持多种模型的工具,可以通过使用“ollama run”命令直接支持许多模型。对于不直接支持的模型,可以创建模型配置文件来加载它们。本文提供了使用Ollama加载GGUF模型文件的说明,并解释了模型配置文件中的参数。Ollama允许用户快速安装、启动和使用不同的模型。

Running GGUF Models with Ollama - Guo Guo Jun

蝈蝈俊
蝈蝈俊 · 2024-03-10T02:02:00Z

GGUF是一种二进制模型文件格式,专为在CPU上快速加载和保存模型而设计。它采用多种技术来保存模型,包括紧凑的二进制编码格式、优化的数据结构和内存映射,使模型加载和使用更快速、资源消耗更低。GGUF还支持模型量化,将模型权重量化为较低位数的整数,降低模型大小和内存消耗,提高计算效率,同时平衡性能和精度。GGUF在HuggingFace上已有大量应用,文件名格式以'Q'开头表示量化位数,后跟特定变体,这些变体根据量化方案的不同而命名,影响模型的大小、性能和精度。

GGUF 模型 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2024-03-09T13:41:00Z

Meta公司发布了Llama 2,是一款开源大模型,训练数据集达2万亿Token,上下文长度扩展到4096。该模型在各基准测试上表现突出,可免费用于商业用途。GGUF是一种新的二进制模型文件,可以高效压缩深度学习模型,跨平台加载和运行模型。llama.cpp是Llama 2的运行时,用于转换和量化模型为GGUF文件。安装Ubuntu 20.04系统,下载Llama 2模型和llama.cpp库,转换和量化模型文件,实现聊天和嵌入功能。

如何创建GGUF模型文件?让你在本地电脑上体验Llama2大型语言模型

dotNET跨平台
dotNET跨平台 · 2023-11-12T23:42:54Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码