小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

shimmy v2.0 是一个纯 Rust 实现的 LLM 推理引擎,兼容 OpenAI API,支持 GGUF 格式。新版本引入了 Airframe 引擎,优化了 GPU 推理性能。Pydantic 团队发布了 monty,一个极简的 Rust Python 解释器,专为 AI Agent 设计。Rust 基金会启动了 Maintainers Fund,为核心维护者提供资金支持,促进 Rust 的长期发展。

【Rust日报】2026-06-11 Pydantic 出品:用 Rust 实现的极简 Python 解释器 monty,专为 AI Agent 代码执行

Rust.cc
Rust.cc · 2026-06-11T01:07:06Z
顶流里最快!智谱,你是在「喷」代码吧

智谱推出的GLM-5.1-highspeed API实现了每秒400个tokens的高速代码生成,显著提升了AI在编程和游戏开发中的实时交互能力。该模型通过优化推理引擎和调度系统,在处理复杂任务时表现出色,缩短了人机协作的反馈时间,推动了国产大模型API在速度和稳定性方面的竞争。

顶流里最快!智谱,你是在「喷」代码吧

量子位
量子位 · 2026-05-22T03:05:00Z
为什么网络架构才是实时人工智能的真正制约因素

人工智能已成为企业的核心,但面临网络延迟和结构僵化的挑战。传统网络无法满足AI对高速数据流的需求,尤其是上行链路。企业需将推理引擎部署至数据源附近,以提高速度和一致性。随着AI代理的兴起,网络互联互通成为竞争优势,企业必须重构网络架构,以适应不断增长的流量和需求。

为什么网络架构才是实时人工智能的真正制约因素

实时互动网
实时互动网 · 2026-05-12T06:47:06Z
Redis之父antirez发布DeepSeek V4 Flash专用推理引擎,128GB MacBook本地跑284B参数大模型

意大利程序员Salvatore Sanfilippo(antirez)发布了新开源项目ds4.c,专为DeepSeek V4 Flash设计的推理引擎。该项目利用Metal GPU,支持高达100万Token的上下文窗口,推理速度极快,适合长文档处理。ds4.c提供CLI和服务器模式,支持本地HTTP服务和磁盘KV缓存,提升了Agent客户端的使用体验。

Redis之父antirez发布DeepSeek V4 Flash专用推理引擎,128GB MacBook本地跑284B参数大模型

dotNET跨平台
dotNET跨平台 · 2026-05-10T00:01:48Z
Redis之父下场,给DeepSeek V4单独造了一台推理引擎

DeepSeek V4发布后,开发者antirez推出了专属推理引擎ds4.c,旨在提升Mac上的运行效率。该引擎使用C和Metal编写,专注于本地推理,支持高效的量化和KV缓存。测试表明,ds4.c在高端Mac上表现优异,生成速度快。antirez希望通过此项目推动本地推理的发展,并强调AI辅助开发的重要性。

Redis之父下场,给DeepSeek V4单独造了一台推理引擎

量子位
量子位 · 2026-05-08T08:20:40Z
DeepSeek V4 Flash专用推理引擎ds4.c完全指南:本地跑大模型的新玩法

本文介绍了ds4.c,一个为DeepSeek V4 Flash模型设计的轻量级推理引擎。该引擎支持本地运行,具备超长上下文和高效的KV缓存,能够快速处理复杂问题。与云端API相比,本地运行更安全、无延迟且无额外费用,适合对隐私和性能有高要求的用户。尽管目前仍处于alpha版本,作者欢迎用户测试和反馈。

DeepSeek V4 Flash专用推理引擎ds4.c完全指南:本地跑大模型的新玩法

极道
极道 · 2026-05-07T22:48:00Z
69个开源AI工具大盘点2026年4月版 - 省下每年5万美金订阅费的开源方案

2026年4月,推荐了69个开源AI工具,包括Ollama、vLLM、LM Studio等,适用于本地运行大模型和推理引擎,帮助用户每年节省高达5万美元的订阅费。这些工具强调了开源的灵活性和成本效益,适合不同需求的开发者和企业。

69个开源AI工具大盘点2026年4月版 - 省下每年5万美金订阅费的开源方案

极道
极道 · 2026-04-30T06:51:00Z

本文讨论了大语言模型(LLM)推理引擎的现代化技术,包括连续批处理和分页注意力。这些技术显著提升了LLM的吞吐量和GPU利用率,同时优化了显存利用率。文章还介绍了分块预填充和前缀缓存等策略,以降低延迟和提高效率,强调在生产环境中应用这些技术的重要性。

【大模型基础设施工程】12:PagedAttention 与 Continuous Batching

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了现代推理引擎的选择,分析了vLLM、SGLang、TensorRT-LLM等八大引擎的架构、性能和生态。提供了基于硬件和场景的选型决策树,强调了各引擎在KV缓存管理、调度和量化支持等方面的差异,并指出了未来的发展趋势和社区现状。

【大模型基础设施工程】13:vLLM / SGLang / TensorRT-LLM / TGI 对比

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
使用 JYPPX.DeploySharp 高效部署 PaddleOCR,解锁多种高性能 OCR 文字识别方案

本文介绍了如何在.NET环境中高效部署PaddleOCR,支持OpenVINO、TensorRT和ONNX Runtime等多种推理引擎,实现快速文字识别。DeploySharp框架提供统一接口,灵活部署,优化性能,适用于多种硬件环境,满足开发者需求。

使用 JYPPX.DeploySharp 高效部署 PaddleOCR,解锁多种高性能 OCR 文字识别方案

dotNET跨平台
dotNET跨平台 · 2026-01-30T00:03:58Z

CrabNebula发布了Tauri LLM插件,支持本地加载和操作LLM。Rust的安全机制确保内存访问和数据竞争安全,但无法自动化死锁安全。mistral.rs 0.7.0发布,提供灵活的LLM推理引擎,支持多种后端和新功能。

【Rust日报】2026-01-29-来自 CrabNebula 的 Tauri LLM 插件官方

Rust.cc
Rust.cc · 2026-01-29T11:47:22Z
DeploySharp 全面支持 YOLO26 系列,助力开发者快速部署落地应用

DeploySharp 是一个为 C# 开发者设计的跨平台模型部署框架,全面支持 YOLO26 系列,涵盖目标检测、实例分割、姿态估计和旋转框检测。它兼容多种推理引擎(如 OpenVINO、ONNX Runtime 和 TensorRT),并提供灵活的配置和性能分析工具,助力开发者快速构建高效的计算机视觉应用。

DeploySharp 全面支持 YOLO26 系列,助力开发者快速部署落地应用

dotNET跨平台
dotNET跨平台 · 2026-01-18T00:02:04Z
Chitu - 一个面向生产的大语言模型推理框架,提供…

Chitu是一个高性能、低延迟的大语言模型推理引擎,适用于企业问答和实时推理,具备良好的稳定性和扩展性。

Chitu - 一个面向生产的大语言模型推理框架,提供…

云原生
云原生 · 2025-12-27T07:44:12Z

xLLM是一个国产大模型推理引擎,由年轻团队开发,旨在打破海外技术垄断,支持多种国产芯片并优化性能,已在多个应用场景中部署。团队计划与大模型厂商深化合作,推动技术进步,助力国家AI战略。

做难而正确的AI Infra创新——专访国产大模型推理引擎xLLM社区负责人刘童璇

量子位
量子位 · 2025-12-02T03:46:41Z

xLLM社区将于12月6日在北京举办“共建开源AI Infra生态”Meetup,分享推理引擎框架及技术愿景,推动国产AI基础设施建设,展示核心技术与硬件协同创新,吸引开发者与行业伙伴参与。

xLLM社区重磅首秀,揭秘大模型推理全景图与开源AI Infra生态

量子位
量子位 · 2025-11-24T12:34:38Z
通过插件系统构建干净、可维护的vLLM修改

vLLM是一个高效的语言模型推理引擎,支持插件系统以便于定制。开发者可以通过插件灵活添加功能,无需修改核心代码,从而简化维护并确保与vLLM生态系统的兼容性。

通过插件系统构建干净、可维护的vLLM修改

vLLM Blog
vLLM Blog · 2025-11-20T00:00:00Z
大规模快速PEFT服务

在Databricks,我们专注于数据智能,开发了高效的推理引擎,实现客户工作负载的2倍性能提升。通过优化调度、内存和量化技术,我们在处理LoRA微调模型时平衡了模型质量与推理速度。我们的推理运行时在真实环境中比开源解决方案快1.5倍,满足企业级需求。

大规模快速PEFT服务

Databricks
Databricks · 2025-10-21T17:09:15Z
手把手运行教大家运行基于DeploySharp 的深度学习模型部署测试平台:快速实现在C#平台进行模型部署

基于DeploySharp的深度学习模型部署测试平台,支持YOLO系列模型及多种推理引擎(如OpenVINO、ONNX Runtime),用户可选择不同设备进行推理,并提供详细的安装与使用教程,便于开发者快速上手。

手把手运行教大家运行基于DeploySharp 的深度学习模型部署测试平台:快速实现在C#平台进行模型部署

dotNET跨平台
dotNET跨平台 · 2025-10-05T00:01:23Z
DeploySharp开源发布:让C#部署深度学习模型更加简单

DeploySharp是为C#开发者设计的跨平台模型部署框架,提供模型加载、配置管理和推理执行解决方案,支持多种推理引擎,兼容.NET生态,具备高性能推理能力,项目开源并遵循Apache 2.0协议。

DeploySharp开源发布:让C#部署深度学习模型更加简单

dotNET跨平台
dotNET跨平台 · 2025-10-04T00:00:55Z
Clarifai的AI引擎在不影响性能的情况下降低成本

AI代理预计将超越企业和互联网,但大型语言模型的代币成本是一个挑战。Clarifai推出了推理引擎,通过优化模型性能,降低运行成本,提高速度,并支持用户自定义AI模型。该平台在速度和价格上具有竞争力,能够灵活部署于多种计算环境。

Clarifai的AI引擎在不影响性能的情况下降低成本

The New Stack
The New Stack · 2025-09-26T19:00:15Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码