小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
普惠 DeepSeek-V4:Kthena + 昇腾 3 分钟搭建 PD 分离推理

本文介绍了在昇腾NPU上通过Kthena实现DeepSeek-V4模型的P/D分离推理架构。P/D分离将推理过程分为Prefill和Decode两个阶段,以优化计算资源和吞吐率。使用Mooncake Connector实现KV Cache的高效传输,Kthena的ModelRoute负责请求路由和实例发现,验证了P/D分离的可行性,并支持灵活的P/D比例调整和多实例扩展。

普惠 DeepSeek-V4:Kthena + 昇腾 3 分钟搭建 PD 分离推理

华为云官方博客
华为云官方博客 · 2026-05-15T09:29:50Z
理解 KV Cache:Attention、P/D 分离与 vLLM 的页式显存管理

本文探讨了大语言模型中KV Cache的产生与管理及其在推理过程中的重要性。KV Cache通过缓存历史K/V向量,优化生成过程并减少计算复杂度。Prefill阶段处理所有输入,而Decode阶段逐步生成输出,二者需分离以提升性能。vLLM采用页式内存管理,解决内存碎片问题,提升存储效率,确保高效的推理系统。

理解 KV Cache:Attention、P/D 分离与 vLLM 的页式显存管理

Steins;Lab
Steins;Lab · 2026-05-06T16:28:41Z

开发一个系统,不管是从头开始,还是在已有系统上二次开发,从来都不是一蹴而就的事情。在上线以前总觉得已经做够了足 […]

浅谈前后端分离系统的SEO优化

obaby@mars
obaby@mars · 2026-04-27T02:03:03Z
静态博客多语言架构设计:从“翻译问题”到“三层分离模型”

我将博客改为双语站点,重点在于架构分离而非单纯翻译。多语言博客分为界面层、路由层和内容层。常见误区是将语言视为分类和追求全站翻译。AI帮助我快速识别问题,形成清晰的内容管理策略。多语言问题的核心是信息结构,结构明确后,翻译和内容扩展变得可控。

静态博客多语言架构设计:从“翻译问题”到“三层分离模型”

愆伏
愆伏 · 2026-03-01T11:25:22Z

在PD分离部署中,异构显卡会增加跨机通信压力。通过RDMA设备加速kvcache传输,降低FTTL。安装驱动后可选择标准或兼容模式,兼容模式支持更多应用。性能测试显示eRDMA速度接近25.0 Gbps。配置和测试过程包括安装工具、查看设备信息及启动容器环境。

阿里云 eRDMA 测试及 PD 分离应用部署

陈少文的博客
陈少文的博客 · 2026-01-17T00:00:00Z
为什么控制平面与数据平面的分离是SaaS的未来

过去十年,SaaS产品主要依赖于供应商选择的云,便利性优于灵活性。如今,控制平面与数据平面的分离推动了“自带云”(BYOC)模式,使客户能够在自身环境中管理数据,增强数据主权、隐私和性能,同时降低成本。这种架构促进了供应商与客户之间更健康的关系,未来将更加灵活与协作。

为什么控制平面与数据平面的分离是SaaS的未来

The New Stack
The New Stack · 2025-12-29T16:00:07Z
推荐一个基于 .NET 搭建的现代化 Saas 企业级集成 AI 的前后端分离架构

Dotnet 工具箱提供的开源项目 NetCoreKevin 是基于 .NET 的现代化 SaaS 解决方案,支持 AI 应用,采用模块化设计和微服务架构,集成 Docker 和 OCR 等多种技术,帮助企业快速构建智能系统。

推荐一个基于 .NET 搭建的现代化 Saas 企业级集成 AI 的前后端分离架构

dotNET跨平台
dotNET跨平台 · 2025-12-21T00:17:55Z

我们在PD分离部署方面取得新进展,KVT模块负责kvcache传输,设计实现零负载。通过解析层、控制层和传输层优化数据传输和容错处理,引入双请求模式以提高调度灵活性,支持多种后端,满足模型需求的演进。

转折中的 PD 分离

学习让我快乐
学习让我快乐 · 2025-11-27T16:00:00Z
AudioShake:基于人工智能的音频分离技术完成 1400 万美元 A 轮融资

AudioShake完成1400万美元A轮融资,利用人工智能分解音频,提升编辑能力。其技术广泛应用于音乐、电影和广播等行业,帮助用户处理音频内容。新资金将用于加速产品开发和市场推广。

AudioShake:基于人工智能的音频分离技术完成 1400 万美元 A 轮融资

实时互动网
实时互动网 · 2025-10-10T01:31:00Z

本文探讨了大模型应用中PD分离部署的必要性,分析了Prefill与Decode阶段的资源需求差异,建议将两者部署在不同设备上以优化性能。同时介绍了vLLM的连接器和部署过程,强调了缓存共享与负载均衡的重要性。

vLLM 部署 PD 分离应用

陈少文的博客
陈少文的博客 · 2025-09-20T00:00:00Z

随着PD分离系统的推广,kvcache传输影响了用户体验。通过采用nccl和改进发送行为,传输性能显著提升,提升幅度达到42.90%。

PD 分离中的 kvcache 传输优化

学习让我快乐
学习让我快乐 · 2025-08-30T16:00:00Z
突破噪音:新一代 AI 如何改变语音分离技术

基于AI的语音分离技术利用“吸引子”机制,在多人同时发言时能够清晰识别和分离声音,适用于虚拟会议和智能家居设备,提升语音识别准确性和用户体验,未来有望改善人机交互。

突破噪音:新一代 AI 如何改变语音分离技术

实时互动网
实时互动网 · 2025-08-20T06:40:09Z

本文总结了常见杀毒软件的特点,包括静态查杀(通过特征码匹配已知病毒)和动态查杀(监控程序运行时行为)。分析了多款杀软的优缺点,讨论了免杀技术及其在C/C++和Python中的应用,最后提到Shellcode及其在反病毒检测中的策略。

C&&C++的shellcode加密+分离&&Loader加载器

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-07-31T07:15:52Z
使用 pgpool-II 与 Amazon Aurora for PostgreSQL 构建高可用读写分离架构

在数据密集型应用中,PostgreSQL结合Amazon Aurora和pgpool-II构建高可用、高性能的数据库架构,实现自动读写分离、负载均衡和故障转移。Aurora具备存储与计算分离、集群架构和快速故障转移等特性,而pgpool-II负责连接池和查询路由,提升性能。通过亚马逊云科技CDK实现自动化部署,简化了架构实现过程,满足现代应用需求。

使用 pgpool-II 与 Amazon Aurora for PostgreSQL 构建高可用读写分离架构

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-07-17T04:08:45Z
分离安全适配器实现高效的安全防护和灵活的推理时对齐

现有的AI安全保障方法常常在推理效率与开发灵活性之间妥协。我们提出了分离安全适配器(DSA),通过解耦安全计算与任务优化模型,显著提升幻觉检测和仇恨言论分类的性能,同时允许动态调整对齐强度,从而增强AI的安全性与灵活性。

分离安全适配器实现高效的安全防护和灵活的推理时对齐

Apple Machine Learning Research
Apple Machine Learning Research · 2025-06-27T00:00:00Z
新OLTP:分离计算与存储的Postgres

Databricks的新Lakebase产品通过分离计算和存储,解决了OLTP数据库的过时、复杂性和扩展性问题。Lakebase结合Postgres和新技术,实现实时数据流和快速分支,满足AI需求,提升开发者工作流。

新OLTP:分离计算与存储的Postgres

The New Stack
The New Stack · 2025-06-21T16:00:58Z

TaurusDB是一种云原生关系型数据库,采用存储与计算分离架构,具备高可用性和性能。其SAL层负责日志服务、数据管理及读写操作,简化了InnoDB引擎与存储节点的交互,提升了系统性能和可扩展性。

【华为云MySQL技术专栏】TaurusDB存算分离,SAL组件的妙用

华为云官方博客
华为云官方博客 · 2025-05-26T01:54:40Z
AI的战略数据库架构 - 统一架构与分离架构

统一架构通过消除向量与数据库之间的同步挑战,降低开发复杂性,确保数据一致性,减轻维护负担,提高开发效率。MongoDB Atlas集成AI功能,支持高维向量搜索和快速事务处理,适应快速变化的商业环境。选择统一架构可简化数据管理,提升系统可靠性和开发速度。

AI的战略数据库架构 - 统一架构与分离架构

MongoDB
MongoDB · 2025-05-22T14:00:00Z
人工智能的战略数据库架构 - 统一架构与分离架构

统一架构通过消除向量与数据库之间的同步挑战,降低开发复杂性,确保数据一致性。与分离架构相比,统一架构减少维护负担,提升开发速度。MongoDB Atlas集成向量搜索和AI功能,支持高维向量搜索和快速事务处理,适应快速变化的商业需求。选择统一架构可简化数据管理,提高开发效率,避免“幽灵文档”等问题。

人工智能的战略数据库架构 - 统一架构与分离架构

MongoDB
MongoDB · 2025-05-22T14:00:00Z
ReSharper 2025.2 EAP 2:首个支持进程分离模式的公开版本

ReSharper 2025.2 EAP 2首次引入与Visual Studio的进程分离(OOP)功能,旨在提升稳定性和性能。用户可通过设置启用OOP模式,尽管仍处于预览阶段,可能会遇到一些问题,部分功能尚未完全支持,团队正在积极改进。

ReSharper 2025.2 EAP 2:首个支持进程分离模式的公开版本

The JetBrains Blog
The JetBrains Blog · 2025-05-22T11:07:20Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码