小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI
Llama.cpp 和 GGUF 中的多模态嵌入

jina-embeddings-v4推出了先进的多模态嵌入,支持文本、图像和复杂文档的向量搜索。通过修改llama.cpp,实现了多模态嵌入的生成,解决了图像处理和注意力机制的问题。调试后,llama.cpp模型的嵌入结果与参考模型相近,未来可优化视觉编码器和支持多向量嵌入。

Llama.cpp 和 GGUF 中的多模态嵌入

Jina AI
Jina AI · 2025-09-09T23:33:16Z
使用 llama.cpp 构建 AI 代理

本文介绍了如何在本地设置和运行 llama.cpp 服务器,构建并测试 AI 代理。教程包括安装、配置和编译 llama.cpp,集成 Langchain,以及创建支持网络搜索和 Python REPL 的 ReAct 代理。尽管设置过程复杂,但其高效性和灵活性使本地 AI 成为可能。

使用 llama.cpp 构建 AI 代理

KDnuggets
KDnuggets · 2025-06-24T12:00:55Z

Using llama.

Building a RAG Pipeline with llama.cpp in Python

MachineLearningMastery.com
MachineLearningMastery.com · 2025-04-18T17:35:07Z
无法加载共享库 'llama.dll': 找不到 (llama-cpp-python)

在Windows上安装llama-cpp-python时,常见问题包括构建失败和缺少DLL。解决方法是安装Visual Studio构建工具和MinGW,并确保路径设置正确。如仍有错误,可修改源代码以解决特定问题。

无法加载共享库 'llama.dll': 找不到 (llama-cpp-python)

DEV Community
DEV Community · 2025-04-14T14:55:05Z
用 Ollama?其實你在跑 llama.cpp!學會直接使用它,發揮更強性能!

Ollama 允许用户在本地运行大型语言模型,提供模型托管服务。核心技术为 llama.cpp,支持 GGUF 模型格式。指南介绍如何在 Jetson Orin Nano 上编译 llama.cpp、转换 GGUF 模型并进行量化,以提高推理速度和减少内存占用。完成模型准备后即可进行推理。

用 Ollama?其實你在跑 llama.cpp!學會直接使用它,發揮更強性能!

DEV Community
DEV Community · 2025-03-05T23:00:00Z
Jan v0.5.15:对llama.cpp设置的更多控制、先进的硬件控制及更多功能

Jan是一款免费的桌面应用,支持本地模型运行。最新更新v0.5.15增加了用户请求的功能,包括在UI中调整llama.cpp设置、硬件控制和云模型管理。用户可更新引擎版本,管理GPU,并支持Gemini和DeepSeek的API。

Jan v0.5.15:对llama.cpp设置的更多控制、先进的硬件控制及更多功能

DEV Community
DEV Community · 2025-02-18T11:38:17Z
SGLang与Llama.cpp的快速速度测试

SGLang是一个开源的LLM推理引擎,声称比其他解决方案快2-5倍。与LM Studio相比,SGLang生成速度略快,但模型加载慢且配置复杂。对于本地使用,Llama.cpp更方便,而SGLang更适合多用户生产环境。

SGLang与Llama.cpp的快速速度测试

DEV Community
DEV Community · 2025-02-17T12:03:05Z

本研究提出了优化推理系统Bitnet.cpp,解决了三元大型语言模型在边缘推理中的效率问题。该系统采用新型混合精度矩阵乘法库,实现了高效无损推理,速度比全精度快6.25倍,推动了该领域的发展。

Bitnet.cpp: Efficient Edge Inference for Ternary Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z
使用OpenWebUI和Llama.cpp实现DeepSeek-R1工具调用以构建本地AI工作流程

最新AI技术进展为开发者带来好消息,llama.cpp团队合并了支持DeepSeek-R1工具调用的关键请求,消除了本地部署障碍。结合OpenWebUI和llama.cpp,可创建全面的本地AI工作流程,如自动校对。新功能包括结构化输出、多工具协调和错误恢复,建议使用RTX 3090或双RTX 4090显卡。

使用OpenWebUI和Llama.cpp实现DeepSeek-R1工具调用以构建本地AI工作流程

DEV Community
DEV Community · 2025-02-01T04:58:32Z

§ C++11 NOTE: this is a web “mirror” of Anthony Calandra’s modern-cpp-features shared under MIT License (see at bottom). The only reason I do a copy is I hate reading markdowns from github....

modern cpp features - C++11

shrik3
shrik3 · 2024-12-15T19:43:04Z

§ C++14 NOTE: this is a web “mirror” of Anthony Calandra’s modern-cpp-features shared under MIT License (see at bottom). The only reason I do a copy is I hate reading markdowns from github....

modern cpp features - C++14

shrik3
shrik3 · 2024-12-15T19:43:04Z

§ C++17 NOTE: this is a web “mirror” of Anthony Calandra’s modern-cpp-features shared under MIT License (see at bottom). The only reason I do a copy is I hate reading markdowns from github....

modern cpp features - C++17

shrik3
shrik3 · 2024-12-15T19:43:04Z

§ C++20 NOTE: this is a web “mirror” of Anthony Calandra’s modern-cpp-features shared under MIT License (see at bottom). The only reason I do a copy is I hate reading markdowns from github....

modern cpp features - C++20

shrik3
shrik3 · 2024-12-15T19:43:04Z

§ Modern C++ Features (Anthony Calandra), overview C++20/17/14/11 NOTE: this is a web “mirror” of Anthony Calandra’s modern-cpp-features shared under MIT License (see at bottom). The only...

modern cpp features - overview

shrik3
shrik3 · 2024-12-15T19:43:04Z

本研究提出了一种优化的Sdcpp推理框架,解决了传统稳定扩散中的高延迟和内存问题,通过Winograd算法加速2D卷积,推理速度提升可达4.79倍。

开放源代码加速Stable-Diffusion.cpp

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-08T00:00:00Z

[!Error]+编写 C++ 代码时偶尔会遇到两个类需要相互引用的情况,如果在 h 文件中相互包含会导致 “has not been declared”

CPP_头文件互相包含

aikenh
aikenh · 2024-10-22T09:05:32Z
现代cpp多线程与并发初探

C++20引入了jthread和协程,简化并发编程。jthread解决了std::thread的RAII问题,支持自动停止和异常安全。协程通过co_await和co_yield实现异步操作。C++20还增加了信号量、锁存器和屏障等同步机制,提升多线程编程的灵活性和安全性。

现代cpp多线程与并发初探

Sekyoro的博客小屋
Sekyoro的博客小屋 · 2024-09-26T15:28:12Z

NVidia GPU在Windows用户中提供了共享GPU内存功能,允许系统内存用作虚拟VRAM。这可以在GPU的专用视频内存不足时提供帮助,但会对性能产生影响。作者测试了将GPU内存溢出到RAM对LLM训练速度的影响,并发现尽可能填充PC的RAM并使用共享GPU内存没有太大意义。作者还测试了不同的卸载设置,并发现使用50%的GPU和50%的CPU几乎完全填满了VRAM而没有溢出。结果显示,使用50/50的GPU/CPU具有最高的每秒标记数和最快的第一个标记时间。使用100%的GPU卸载会导致更多的系统内存使用。作者得出结论,使用共享VRAM没有太大意义。

llama.cpp:CPU与GPU、共享VRAM与推理速度

DEV Community
DEV Community · 2024-08-22T17:37:33Z

Mistral.rs实现了PagedAttention,比llama.cpp在大部分CUDA GPU上更快。一篇文章讲述了使用Rust构建搜索引擎的经历。Rust对新手不友好,但有人在努力教学。有一份Leptos新手教程。

【Rust日报】2024-07-25 mistral.rs 比 llama.cpp 在大部的CUDA GPU上都快了

Rust.cc
Rust.cc · 2024-07-27T20:25:40Z
BTMC:重返Modern Cpp

介绍了C++中的模板特化和智能指针的使用。模板特化可定制化模板以优化性能或实现不同行为。智能指针用于自动管理动态分配内存。

BTMC:重返Modern Cpp

Sekyoro的博客小屋
Sekyoro的博客小屋 · 2024-07-21T07:13:09Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码