小红花·文摘

高性能 LLM 推理框架：纯 C/C++ 实现，支持多硬件平台！ | 开源日报 No.786

开源服务指南 ·

在Python中使用llama.cpp构建检索增强生成（RAG）管道

MachineLearningMastery.com ·

本文介绍了开源大模型的最新进展，特别是DeepSeek-R1的推出，标志着开源模型逐渐追赶闭源模型。文章讨论了本地大模型的推理框架、应用及生态，强调了llama.cpp项目的硬件支持和量化策略。通过Ollama和Open WebUI，用户可以更方便地使用大模型，进行联网搜索和本地知识库增强，提升应用体验。

用 Ollama？其實你在跑 llama.cpp！學會直接使用它，發揮更強性能！

DEV Community ·

使用OpenWebUI和Llama.cpp实现DeepSeek-R1工具调用以构建本地AI工作流程

DEV Community ·

如何在内存有限的MacBook Air M1上高效运行Meta LLaMA

DEV Community ·

本文探讨了大语言模型（LLM）的快速发展及其本地运行的优势，如隐私保护和无注册限制。作者分享了使用llama.cpp软件的经验，介绍了多种模型的特点与应用。尽管LLM在生成代码和文本方面表现出色，但仍存在准确性和上下文长度的限制。总体而言，LLM在校对、创作和翻译等领域展现了潜力。

译文 | 百舸争流，能者自渡：本地大语言模型（LLM）那些事

少数派 ·

使用 Ollama 和 Hugging Face Hub 本地运行（几乎）任何语言模型

KDnuggets ·

unable to find utility "metal"

挖坑不填兽 ·

本文介绍了使用低成本显卡和llama.cpp推理Qwen1.5-14B-Chat模型的方法，包括使用Tesla P4显卡和GPU + CPU混合计算，在2048上下文支持下达到11个token/s的速度。文章还讨论了模型大小、量化方法的困惑度矩阵和不同模型的性能表现。作者提供了llama.cpp的部署和调用方法，并讨论了提高推理速度的改进点。最后，作者总结了Tesla P4显卡的优缺点，并强调了llama.cpp项目的重要性。