小红花·文摘

使用 SageMaker AI 运行 GGUF 格式的模型推理实践

亚马逊AWS官方博客 ·

m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

刘悦 ·

模块化：MAX 24.4 的新功能有哪些？macOS 上的 MAX、快速本地 Llama3、原生量化和 GGUF 支持

Modular Blog ·

GGML GGUF 文件格式漏洞

Databricks ·

Ollama是一个支持多种模型的工具，可以通过使用“ollama run”命令直接支持许多模型。对于不直接支持的模型，可以创建模型配置文件来加载它们。本文提供了使用Ollama加载GGUF模型文件的说明，并解释了模型配置文件中的参数。Ollama允许用户快速安装、启动和使用不同的模型。

Running GGUF Models with Ollama - Guo Guo Jun

蝈蝈俊 ·

GGUF是一种二进制模型文件格式，专为在CPU上快速加载和保存模型而设计。它采用多种技术来保存模型，包括紧凑的二进制编码格式、优化的数据结构和内存映射，使模型加载和使用更快速、资源消耗更低。GGUF还支持模型量化，将模型权重量化为较低位数的整数，降低模型大小和内存消耗，提高计算效率，同时平衡性能和精度。GGUF在HuggingFace上已有大量应用，文件名格式以'Q'开头表示量化位数，后跟特定变体，这些变体根据量化方案的不同而命名，影响模型的大小、性能和精度。

GGUF 模型 - 蝈蝈俊

蝈蝈俊 ·

Meta公司发布了Llama 2，是一款开源大模型，训练数据集达2万亿Token，上下文长度扩展到4096。该模型在各基准测试上表现突出，可免费用于商业用途。GGUF是一种新的二进制模型文件，可以高效压缩深度学习模型，跨平台加载和运行模型。llama.cpp是Llama 2的运行时，用于转换和量化模型为GGUF文件。安装Ubuntu 20.04系统，下载Llama 2模型和llama.cpp库，转换和量化模型文件，实现聊天和嵌入功能。

如何创建GGUF模型文件？让你在本地电脑上体验Llama2大型语言模型

dotNET跨平台 ·

逐步量化大型语言模型：将FP16模型转换为GGUF

Llama.cpp 和 GGUF 中的多模态嵌入

为仅解码器嵌入模型优化GGUF