小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
关于github拉取下载加速的另一个方式

本文讨论了在Mac上使用llama.cpp时下载GitHub仓库速度慢的问题,建议使用gh-proxy服务加速下载,并通过转换链接提高效率。直接下载压缩包比使用git clone更快,因为压缩包减少了小文件传输时间。此外,作者提到在本地运行27B模型时遇到性能问题,考虑购买更高配置的Mac Studio。

关于github拉取下载加速的另一个方式

Nicksxs's Blog
Nicksxs's Blog · 2026-06-14T13:45:35Z
看看目前本地能跑什么模型,使用llama.cpp

文章讨论了在本地运行小型开源模型的可行性,特别是使用llama.cpp项目。作者分享了在Windows上使用3060显卡运行Qwen3.6 9B模型的设置,包括CUDA版本和参数配置。尽管显存有限,这些模型在简单任务中仍能有效使用。

看看目前本地能跑什么模型,使用llama.cpp

Nicksxs's Blog
Nicksxs's Blog · 2026-05-31T14:07:14Z
高性能 LLM 推理框架:纯 C/C++ 实现,支持多硬件平台! | 开源日报 No.786

llama.cpp 是一个高性能的 C/C++ LLM 推理项目,优化了 Apple Silicon 和 x86 架构,支持多种量化选项。Awesome-LLM-3D 汇总了多模态语言模型在三维世界中的应用资源。evcc 是电动汽车充电控制器,支持多种通信协议。生成 AI 文档提供 Google Gemini API 的信息和示例。

高性能 LLM 推理框架:纯 C/C++ 实现,支持多硬件平台! | 开源日报 No.786

开源服务指南
开源服务指南 · 2025-11-11T07:35:12Z
Llama.cpp 和 GGUF 中的多模态嵌入

jina-embeddings-v4推出了先进的多模态嵌入,支持文本、图像和复杂文档的向量搜索。通过修改llama.cpp,实现了多模态嵌入的生成,解决了图像处理和注意力机制的问题。调试后,llama.cpp模型的嵌入结果与参考模型相近,未来可优化视觉编码器和支持多向量嵌入。

Llama.cpp 和 GGUF 中的多模态嵌入

Jina AI
Jina AI · 2025-09-09T23:33:16Z
在本地运行GPT-OSS的最佳方式

本文介绍了如何在本地高效运行GPT-OSS 20B模型,使用llama.cpp和Open WebUI。通过简单的命令设置Python环境、安装必要的包、下载量化模型并启动服务器,用户可轻松获得现代聊天界面,实现本地推理。

在本地运行GPT-OSS的最佳方式

KDnuggets
KDnuggets · 2025-08-25T14:00:04Z
使用 llama.cpp 构建 AI 代理

本文介绍了如何在本地设置和运行 llama.cpp 服务器,构建并测试 AI 代理。教程包括安装、配置和编译 llama.cpp,集成 Langchain,以及创建支持网络搜索和 Python REPL 的 ReAct 代理。尽管设置过程复杂,但其高效性和灵活性使本地 AI 成为可能。

使用 llama.cpp 构建 AI 代理

KDnuggets
KDnuggets · 2025-06-24T12:00:55Z
在Python中使用llama.cpp构建检索增强生成(RAG)管道

本文介绍了如何在Python中使用llama.cpp构建检索增强生成(RAG)管道。用户需安装必要库并下载LLaMA模型,创建文档库,处理多种格式的文档并分割成可管理的块。接着,使用Chroma构建向量存储,结合检索和生成方法,最终实现高效的RAG系统,能够根据用户查询生成准确回答并提供相关文档来源。

在Python中使用llama.cpp构建检索增强生成(RAG)管道

MachineLearningMastery.com
MachineLearningMastery.com · 2025-04-18T17:35:07Z

本文介绍了开源大模型的最新进展,特别是DeepSeek-R1的推出,标志着开源模型逐渐追赶闭源模型。文章讨论了本地大模型的推理框架、应用及生态,强调了llama.cpp项目的硬件支持和量化策略。通过Ollama和Open WebUI,用户可以更方便地使用大模型,进行联网搜索和本地知识库增强,提升应用体验。

本地大模型之路(三):推理引擎和 LLM 应用

少数派
少数派 · 2025-03-11T07:00:00Z
用 Ollama?其實你在跑 llama.cpp!學會直接使用它,發揮更強性能!

Ollama 允许用户在本地运行大型语言模型,提供模型托管服务。核心技术为 llama.cpp,支持 GGUF 模型格式。指南介绍如何在 Jetson Orin Nano 上编译 llama.cpp、转换 GGUF 模型并进行量化,以提高推理速度和减少内存占用。完成模型准备后即可进行推理。

用 Ollama?其實你在跑 llama.cpp!學會直接使用它,發揮更強性能!

DEV Community
DEV Community · 2025-03-05T23:00:00Z
使用OpenWebUI和Llama.cpp实现DeepSeek-R1工具调用以构建本地AI工作流程

最新AI技术进展为开发者带来好消息,llama.cpp团队合并了支持DeepSeek-R1工具调用的关键请求,消除了本地部署障碍。结合OpenWebUI和llama.cpp,可创建全面的本地AI工作流程,如自动校对。新功能包括结构化输出、多工具协调和错误恢复,建议使用RTX 3090或双RTX 4090显卡。

使用OpenWebUI和Llama.cpp实现DeepSeek-R1工具调用以构建本地AI工作流程

DEV Community
DEV Community · 2025-02-01T04:58:32Z
如何在内存有限的MacBook Air M1上高效运行Meta LLaMA

在MacBook上运行Meta的LLaMA模型是可行的。通过下载模型、安装必要的包,并使用llama.cpp进行量化,可以在M1的8GB内存上高效运行AI应用。主要步骤包括安装llama.cpp、量化模型和通过命令行运行。

如何在内存有限的MacBook Air M1上高效运行Meta LLaMA

DEV Community
DEV Community · 2024-12-06T15:16:20Z

本文探讨了大语言模型(LLM)的快速发展及其本地运行的优势,如隐私保护和无注册限制。作者分享了使用llama.cpp软件的经验,介绍了多种模型的特点与应用。尽管LLM在生成代码和文本方面表现出色,但仍存在准确性和上下文长度的限制。总体而言,LLM在校对、创作和翻译等领域展现了潜力。

译文 | 百舸争流,能者自渡:本地大语言模型(LLM)那些事

少数派
少数派 · 2024-12-05T07:00:00Z
使用 Ollama 和 Hugging Face Hub 本地运行(几乎)任何语言模型

Ollama应用整合了llama.cpp和Hugging Face的GGUF格式,用户可通过简单命令本地运行超过45,000个模型,无需设置。支持灵活的模型选择和自定义选项,方便AI应用开发和研究。

使用 Ollama 和 Hugging Face Hub 本地运行(几乎)任何语言模型

KDnuggets
KDnuggets · 2024-10-18T10:00:32Z
unable to find utility "metal"

编译 llama.cpp 时出现找不到 'metal' 工具的错误,原因是编译器默认指向 commandline-tools 而非 Xcode。通过执行命令 `sudo xcode-select --switch /Applications/Xcode.app/Contents/Developer` 可解决该问题,正常编译。

unable to find utility "metal"

挖坑不填兽
挖坑不填兽 · 2024-05-14T16:00:00Z

本文介绍了使用低成本显卡和llama.cpp推理Qwen1.5-14B-Chat模型的方法,包括使用Tesla P4显卡和GPU + CPU混合计算,在2048上下文支持下达到11个token/s的速度。文章还讨论了模型大小、量化方法的困惑度矩阵和不同模型的性能表现。作者提供了llama.cpp的部署和调用方法,并讨论了提高推理速度的改进点。最后,作者总结了Tesla P4显卡的优缺点,并强调了llama.cpp项目的重要性。

使用 300 元的显卡推理 Qwen1.5-14B

Lucien's Blog
Lucien's Blog · 2024-03-17T15:26:00Z
无所不谈,百无禁忌,Win11本地部署无内容审查中文大语言模型CausalLM-14B

CausalLM-14B是一个无内容审查的开源大语言模型,可以在本地运行。它基于Qwen-14B,并加入了其他中文数据集。使用llama.cpp或llama-cpp-python可以运行该模型。

无所不谈,百无禁忌,Win11本地部署无内容审查中文大语言模型CausalLM-14B

刘悦
刘悦 · 2024-02-28T00:00:00Z
个人版 AI 辅助系统的尝试

作者在CSDN时期希望有自己的AI工作环境,但资源有限。离职后用补偿买了一台高配MacBook Pro,能运行常规AI算法。目标是建立一套脱离外部服务的私人AI系统,能完成一些常规软件应用无法做到的事情。经过尝试,使用llama.cpp和ollama运行模型,llama.cpp泛用性更好,ollama性能更好。发布了词法分析器工具,用于微调模型。最不满意的是客户端,用Python写了一个命令行工具Blue Shell。已开始用AI为Jaskell项目生成单元测试代码。

个人版 AI 辅助系统的尝试

挖坑不填兽
挖坑不填兽 · 2023-12-15T16:00:00Z
个人版 AI 辅助系统的尝试

作者在CSDN上分享了自己搭建AI工作环境的经历,购买了高配的MacBook Pro并使用llama.cpp和ollama等工具运行模型。开发了命令行工具Blue Shell辅助工作。AI系统目前不能满足创造性需求。

个人版 AI 辅助系统的尝试

挖坑不填兽
挖坑不填兽 · 2023-12-15T16:00:00Z

本文介绍了如何在本地运行国产大模型“零一万物34B”,包括使用开源软件llama.cpp在CPU和GPU上运行模型的方法,提供了Docker环境的配置和模型文件的下载方法,以及使用llama.cpp运行34B模型的性能优化技巧。作者总结了基础使用方法,并展望了未来的应用。

本地运行“李开复”的零一万物 34B 大模型

苏洋博客
苏洋博客 · 2023-11-26T14:15:00Z

本文介绍了大模型部署工具llama.cpp的使用方法,包括安装和配置过程,模型量化和运行GGUF模型,以及提供模型的API服务和使用curl和openai进行测试。

大模型部署工具 llama.cpp

陈少文的博客
陈少文的博客 · 2023-09-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码