小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
高性能 LLM 推理框架:纯 C/C++ 实现,支持多硬件平台! | 开源日报 No.786

llama.cpp 是一个高性能的 C/C++ LLM 推理项目,优化了 Apple Silicon 和 x86 架构,支持多种量化选项。Awesome-LLM-3D 汇总了多模态语言模型在三维世界中的应用资源。evcc 是电动汽车充电控制器,支持多种通信协议。生成 AI 文档提供 Google Gemini API 的信息和示例。

高性能 LLM 推理框架:纯 C/C++ 实现,支持多硬件平台! | 开源日报 No.786

开源服务指南
开源服务指南 · 2025-11-11T07:35:12Z
Llama.cpp 和 GGUF 中的多模态嵌入

jina-embeddings-v4推出了先进的多模态嵌入,支持文本、图像和复杂文档的向量搜索。通过修改llama.cpp,实现了多模态嵌入的生成,解决了图像处理和注意力机制的问题。调试后,llama.cpp模型的嵌入结果与参考模型相近,未来可优化视觉编码器和支持多向量嵌入。

Llama.cpp 和 GGUF 中的多模态嵌入

Jina AI
Jina AI · 2025-09-09T23:33:16Z
在本地运行GPT-OSS的最佳方式

本文介绍了如何在本地高效运行GPT-OSS 20B模型,使用llama.cpp和Open WebUI。通过简单的命令设置Python环境、安装必要的包、下载量化模型并启动服务器,用户可轻松获得现代聊天界面,实现本地推理。

在本地运行GPT-OSS的最佳方式

KDnuggets
KDnuggets · 2025-08-25T14:00:04Z
使用 llama.cpp 构建 AI 代理

本文介绍了如何在本地设置和运行 llama.cpp 服务器,构建并测试 AI 代理。教程包括安装、配置和编译 llama.cpp,集成 Langchain,以及创建支持网络搜索和 Python REPL 的 ReAct 代理。尽管设置过程复杂,但其高效性和灵活性使本地 AI 成为可能。

使用 llama.cpp 构建 AI 代理

KDnuggets
KDnuggets · 2025-06-24T12:00:55Z
在Python中使用llama.cpp构建检索增强生成(RAG)管道

本文介绍了如何在Python中使用llama.cpp构建检索增强生成(RAG)管道。用户需安装必要库并下载LLaMA模型,创建文档库,处理多种格式的文档并分割成可管理的块。接着,使用Chroma构建向量存储,结合检索和生成方法,最终实现高效的RAG系统,能够根据用户查询生成准确回答并提供相关文档来源。

在Python中使用llama.cpp构建检索增强生成(RAG)管道

MachineLearningMastery.com
MachineLearningMastery.com · 2025-04-18T17:35:07Z

本文介绍了开源大模型的最新进展,特别是DeepSeek-R1的推出,标志着开源模型逐渐追赶闭源模型。文章讨论了本地大模型的推理框架、应用及生态,强调了llama.cpp项目的硬件支持和量化策略。通过Ollama和Open WebUI,用户可以更方便地使用大模型,进行联网搜索和本地知识库增强,提升应用体验。

本地大模型之路(三):推理引擎和 LLM 应用

少数派
少数派 · 2025-03-11T07:00:00Z
用 Ollama?其實你在跑 llama.cpp!學會直接使用它,發揮更強性能!

Ollama 允许用户在本地运行大型语言模型,提供模型托管服务。核心技术为 llama.cpp,支持 GGUF 模型格式。指南介绍如何在 Jetson Orin Nano 上编译 llama.cpp、转换 GGUF 模型并进行量化,以提高推理速度和减少内存占用。完成模型准备后即可进行推理。

用 Ollama?其實你在跑 llama.cpp!學會直接使用它,發揮更強性能!

DEV Community
DEV Community · 2025-03-05T23:00:00Z
使用OpenWebUI和Llama.cpp实现DeepSeek-R1工具调用以构建本地AI工作流程

最新AI技术进展为开发者带来好消息,llama.cpp团队合并了支持DeepSeek-R1工具调用的关键请求,消除了本地部署障碍。结合OpenWebUI和llama.cpp,可创建全面的本地AI工作流程,如自动校对。新功能包括结构化输出、多工具协调和错误恢复,建议使用RTX 3090或双RTX 4090显卡。

使用OpenWebUI和Llama.cpp实现DeepSeek-R1工具调用以构建本地AI工作流程

DEV Community
DEV Community · 2025-02-01T04:58:32Z
如何在内存有限的MacBook Air M1上高效运行Meta LLaMA

在MacBook上运行Meta的LLaMA模型是可行的。通过下载模型、安装必要的包,并使用llama.cpp进行量化,可以在M1的8GB内存上高效运行AI应用。主要步骤包括安装llama.cpp、量化模型和通过命令行运行。

如何在内存有限的MacBook Air M1上高效运行Meta LLaMA

DEV Community
DEV Community · 2024-12-06T15:16:20Z

本文探讨了大语言模型(LLM)的快速发展及其本地运行的优势,如隐私保护和无注册限制。作者分享了使用llama.cpp软件的经验,介绍了多种模型的特点与应用。尽管LLM在生成代码和文本方面表现出色,但仍存在准确性和上下文长度的限制。总体而言,LLM在校对、创作和翻译等领域展现了潜力。

译文 | 百舸争流,能者自渡:本地大语言模型(LLM)那些事

少数派
少数派 · 2024-12-05T07:00:00Z
使用 Ollama 和 Hugging Face Hub 本地运行(几乎)任何语言模型

Ollama应用整合了llama.cpp和Hugging Face的GGUF格式,用户可通过简单命令本地运行超过45,000个模型,无需设置。支持灵活的模型选择和自定义选项,方便AI应用开发和研究。

使用 Ollama 和 Hugging Face Hub 本地运行(几乎)任何语言模型

KDnuggets
KDnuggets · 2024-10-18T10:00:32Z
unable to find utility "metal"

编译 llama.cpp 时出现找不到 'metal' 工具的错误,原因是编译器默认指向 commandline-tools 而非 Xcode。通过执行命令 `sudo xcode-select --switch /Applications/Xcode.app/Contents/Developer` 可解决该问题,正常编译。

unable to find utility "metal"

挖坑不填兽
挖坑不填兽 · 2024-05-14T16:00:00Z

本文介绍了使用低成本显卡和llama.cpp推理Qwen1.5-14B-Chat模型的方法,包括使用Tesla P4显卡和GPU + CPU混合计算,在2048上下文支持下达到11个token/s的速度。文章还讨论了模型大小、量化方法的困惑度矩阵和不同模型的性能表现。作者提供了llama.cpp的部署和调用方法,并讨论了提高推理速度的改进点。最后,作者总结了Tesla P4显卡的优缺点,并强调了llama.cpp项目的重要性。

使用 300 元的显卡推理 Qwen1.5-14B

Lucien's Blog
Lucien's Blog · 2024-03-17T15:26:00Z
无所不谈,百无禁忌,Win11本地部署无内容审查中文大语言模型CausalLM-14B

CausalLM-14B是一个无内容审查的开源大语言模型,可以在本地运行。它基于Qwen-14B,并加入了其他中文数据集。使用llama.cpp或llama-cpp-python可以运行该模型。

无所不谈,百无禁忌,Win11本地部署无内容审查中文大语言模型CausalLM-14B

刘悦
刘悦 · 2024-02-28T00:00:00Z
个人版 AI 辅助系统的尝试

作者在CSDN时期希望有自己的AI工作环境,但资源有限。离职后用补偿买了一台高配MacBook Pro,能运行常规AI算法。目标是建立一套脱离外部服务的私人AI系统,能完成一些常规软件应用无法做到的事情。经过尝试,使用llama.cpp和ollama运行模型,llama.cpp泛用性更好,ollama性能更好。发布了词法分析器工具,用于微调模型。最不满意的是客户端,用Python写了一个命令行工具Blue Shell。已开始用AI为Jaskell项目生成单元测试代码。

个人版 AI 辅助系统的尝试

挖坑不填兽
挖坑不填兽 · 2023-12-15T16:00:00Z
个人版 AI 辅助系统的尝试

作者在CSDN上分享了自己搭建AI工作环境的经历,购买了高配的MacBook Pro并使用llama.cpp和ollama等工具运行模型。开发了命令行工具Blue Shell辅助工作。AI系统目前不能满足创造性需求。

个人版 AI 辅助系统的尝试

挖坑不填兽
挖坑不填兽 · 2023-12-15T16:00:00Z

本文介绍了如何在本地运行国产大模型“零一万物34B”,包括使用开源软件llama.cpp在CPU和GPU上运行模型的方法,提供了Docker环境的配置和模型文件的下载方法,以及使用llama.cpp运行34B模型的性能优化技巧。作者总结了基础使用方法,并展望了未来的应用。

本地运行“李开复”的零一万物 34B 大模型

苏洋博客
苏洋博客 · 2023-11-26T14:15:00Z

本文介绍了大模型部署工具llama.cpp的使用方法,包括安装和配置过程,模型量化和运行GGUF模型,以及提供模型的API服务和使用curl和openai进行测试。

大模型部署工具 llama.cpp

陈少文的博客
陈少文的博客 · 2023-09-05T00:00:00Z
Weekly Issue 2023-07-16

Shopify CEO给llama.cpp项目提了一个PR,技术型老板可以看到更多信息,技术敏感很重要。Python项目中使用Makefile的一些技巧。读代码来轻松还原需求的能力很重要。使用Rock5和6个M.2磁盘组成小型NAS。对于RSS和Atom的差异不太关心。Thoughtworks技术雷达定期更新。AlmaLinux放弃与RHEL兼容,采用CentOS Stream。使用PostgreSQL和Kine运行Kubernetes。Hocus选择QEMU替代Firecracker。北京个人房源获取攻略。电梯理论:不要追求目标和目的,专注于当前的事情。《运气的诱饵》和《人生路不熟》的评论。《羊毛战记》第一部注水严重。

Weekly Issue 2023-07-16

Yiran's Blog
Yiran's Blog · 2023-07-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码