小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
69个开源AI工具大盘点2026年4月版 - 省下每年5万美金订阅费的开源方案

2026年4月,推荐了69个开源AI工具,包括Ollama、vLLM、LM Studio等,适用于本地运行大模型和推理引擎,帮助用户每年节省高达5万美元的订阅费。这些工具强调了开源的灵活性和成本效益,适合不同需求的开发者和企业。

69个开源AI工具大盘点2026年4月版 - 省下每年5万美金订阅费的开源方案

极道
极道 · 2026-04-30T06:51:00Z

本文讨论了大语言模型(LLM)推理引擎的现代化技术,包括连续批处理和分页注意力。这些技术显著提升了LLM的吞吐量和GPU利用率,同时优化了显存利用率。文章还介绍了分块预填充和前缀缓存等策略,以降低延迟和提高效率,强调在生产环境中应用这些技术的重要性。

【大模型基础设施工程】12:PagedAttention 与 Continuous Batching

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了现代推理引擎的选择,分析了vLLM、SGLang、TensorRT-LLM等八大引擎的架构、性能和生态。提供了基于硬件和场景的选型决策树,强调了各引擎在KV缓存管理、调度和量化支持等方面的差异,并指出了未来的发展趋势和社区现状。

【大模型基础设施工程】13:vLLM / SGLang / TensorRT-LLM / TGI 对比

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
使用 JYPPX.DeploySharp 高效部署 PaddleOCR,解锁多种高性能 OCR 文字识别方案

本文介绍了如何在.NET环境中高效部署PaddleOCR,支持OpenVINO、TensorRT和ONNX Runtime等多种推理引擎,实现快速文字识别。DeploySharp框架提供统一接口,灵活部署,优化性能,适用于多种硬件环境,满足开发者需求。

使用 JYPPX.DeploySharp 高效部署 PaddleOCR,解锁多种高性能 OCR 文字识别方案

dotNET跨平台
dotNET跨平台 · 2026-01-30T00:03:58Z

CrabNebula发布了Tauri LLM插件,支持本地加载和操作LLM。Rust的安全机制确保内存访问和数据竞争安全,但无法自动化死锁安全。mistral.rs 0.7.0发布,提供灵活的LLM推理引擎,支持多种后端和新功能。

【Rust日报】2026-01-29-来自 CrabNebula 的 Tauri LLM 插件官方

Rust.cc
Rust.cc · 2026-01-29T11:47:22Z
DeploySharp 全面支持 YOLO26 系列,助力开发者快速部署落地应用

DeploySharp 是一个为 C# 开发者设计的跨平台模型部署框架,全面支持 YOLO26 系列,涵盖目标检测、实例分割、姿态估计和旋转框检测。它兼容多种推理引擎(如 OpenVINO、ONNX Runtime 和 TensorRT),并提供灵活的配置和性能分析工具,助力开发者快速构建高效的计算机视觉应用。

DeploySharp 全面支持 YOLO26 系列,助力开发者快速部署落地应用

dotNET跨平台
dotNET跨平台 · 2026-01-18T00:02:04Z
Chitu - 一个面向生产的大语言模型推理框架,提供…

Chitu是一个高性能、低延迟的大语言模型推理引擎,适用于企业问答和实时推理,具备良好的稳定性和扩展性。

Chitu - 一个面向生产的大语言模型推理框架,提供…

云原生
云原生 · 2025-12-27T07:44:12Z

xLLM是一个国产大模型推理引擎,由年轻团队开发,旨在打破海外技术垄断,支持多种国产芯片并优化性能,已在多个应用场景中部署。团队计划与大模型厂商深化合作,推动技术进步,助力国家AI战略。

做难而正确的AI Infra创新——专访国产大模型推理引擎xLLM社区负责人刘童璇

量子位
量子位 · 2025-12-02T03:46:41Z

xLLM社区将于12月6日在北京举办“共建开源AI Infra生态”Meetup,分享推理引擎框架及技术愿景,推动国产AI基础设施建设,展示核心技术与硬件协同创新,吸引开发者与行业伙伴参与。

xLLM社区重磅首秀,揭秘大模型推理全景图与开源AI Infra生态

量子位
量子位 · 2025-11-24T12:34:38Z
通过插件系统构建干净、可维护的vLLM修改

vLLM是一个高效的语言模型推理引擎,支持插件系统以便于定制。开发者可以通过插件灵活添加功能,无需修改核心代码,从而简化维护并确保与vLLM生态系统的兼容性。

通过插件系统构建干净、可维护的vLLM修改

vLLM Blog
vLLM Blog · 2025-11-20T00:00:00Z
大规模快速PEFT服务

在Databricks,我们专注于数据智能,开发了高效的推理引擎,实现客户工作负载的2倍性能提升。通过优化调度、内存和量化技术,我们在处理LoRA微调模型时平衡了模型质量与推理速度。我们的推理运行时在真实环境中比开源解决方案快1.5倍,满足企业级需求。

大规模快速PEFT服务

Databricks
Databricks · 2025-10-21T17:09:15Z
手把手运行教大家运行基于DeploySharp 的深度学习模型部署测试平台:快速实现在C#平台进行模型部署

基于DeploySharp的深度学习模型部署测试平台,支持YOLO系列模型及多种推理引擎(如OpenVINO、ONNX Runtime),用户可选择不同设备进行推理,并提供详细的安装与使用教程,便于开发者快速上手。

手把手运行教大家运行基于DeploySharp 的深度学习模型部署测试平台:快速实现在C#平台进行模型部署

dotNET跨平台
dotNET跨平台 · 2025-10-05T00:01:23Z
DeploySharp开源发布:让C#部署深度学习模型更加简单

DeploySharp是为C#开发者设计的跨平台模型部署框架,提供模型加载、配置管理和推理执行解决方案,支持多种推理引擎,兼容.NET生态,具备高性能推理能力,项目开源并遵循Apache 2.0协议。

DeploySharp开源发布:让C#部署深度学习模型更加简单

dotNET跨平台
dotNET跨平台 · 2025-10-04T00:00:55Z
Clarifai的AI引擎在不影响性能的情况下降低成本

AI代理预计将超越企业和互联网,但大型语言模型的代币成本是一个挑战。Clarifai推出了推理引擎,通过优化模型性能,降低运行成本,提高速度,并支持用户自定义AI模型。该平台在速度和价格上具有竞争力,能够灵活部署于多种计算环境。

Clarifai的AI引擎在不影响性能的情况下降低成本

The New Stack
The New Stack · 2025-09-26T19:00:15Z
vLLM语义路由器:LLM推理的下一阶段

vLLM语义路由器是一个开源的高效推理引擎,通过语义分类和智能路由优化推理过程。它根据查询复杂性选择合适的推理模式,提高准确性并降低延迟。该系统支持与Kubernetes和Envoy集成,未来将增强可插拔性,提升推理定制化能力。

vLLM语义路由器:LLM推理的下一阶段

vLLM Blog
vLLM Blog · 2025-09-11T00:00:00Z
我们如何为Cloudflare的网络构建最高效的推理引擎

Cloudflare开发的Infire是一款高效的LLM推理引擎,旨在优化GPU利用率和降低CPU负载。通过动态调度和连续批处理技术,Infire提升了推理速度,支持更多请求,并满足安全需求。与传统vLLM相比,Infire在资源使用上更具优势,未来将支持多GPU和量化功能。

我们如何为Cloudflare的网络构建最高效的推理引擎

The Cloudflare Blog
The Cloudflare Blog · 2025-08-27T14:00:00Z

本研究提出了ML Drift框架,优化了GPU加速推理引擎,使资源受限设备能够高效执行复杂生成模型,性能提升达十倍,展现出显著的应用潜力。

Scaling GPU Inference for Large-Scale Generative Models on Resource-Constrained Devices

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究提出了一种符号生成任务描述语言及推理引擎,解决了传统生成模型在跨模态映射中的灵活性和计算成本问题。实验结果表明,该方法在内容质量、效率和可编辑性方面优于现有模型,为提升生成AI能力奠定了有效基础。

任意生成任务的符号表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-24T00:00:00Z
刚刚,DeepSeek公布了推理引擎开源路径,OpenAI也将开始连续一周发布

DeepSeek发布了开源推理引擎文档,强调与开源社区的合作,去掉了具体项目名称,突出未来合作的广泛性。同时,OpenAI也在进行新一轮发布,网友们对新模型进行了猜测。

刚刚,DeepSeek公布了推理引擎开源路径,OpenAI也将开始连续一周发布

机器之心
机器之心 · 2025-04-14T11:56:32Z
推理引擎与搜索引擎

搜索引擎和推理引擎是两种不同的工具。搜索引擎(如Google)用于快速查找信息,而推理引擎通过规则和已知事实推导新知识。两者结合使用时,搜索引擎定位数据,推理引擎分析数据以提供智能见解。

推理引擎与搜索引擎

DEV Community
DEV Community · 2025-04-08T10:59:24Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码