小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
模块化:为什么LLM推理需要一种新型路由器 - 第三部分

Modular Cloud的路由层通过准备、过滤、评分、选择和执行五个阶段实现高效请求处理。该框架支持可组合插件,快速实现新路由优化,适应不同工作负载需求。通过共享上下文,分散的预填充和解码流程可并行选择,提高效率。

模块化:为什么LLM推理需要一种新型路由器 - 第三部分

Modular Blog
Modular Blog · 2026-06-05T00:00:00Z

文章讨论了如何在不修改nginx配置的情况下支持WebSocket。通过分析FastAPI和uvicorn的请求处理流程,发现nginx会吞掉Upgrade头,导致WebSocket请求无法正确匹配。作者通过修改uvicorn的TCP字节处理方式,成功实现了WebSocket的兼容,尽管方法较为复杂。

不修改nginx接收websocket

Est's Blog
Est's Blog · 2026-05-28T10:35:00Z
EP216:RAG与代理的区别

本文讨论了RAG(检索增强生成)与代理的区别。RAG通过检索相关文档生成答案,适用于文档中有答案的情况;而代理在推理循环中使用工具,适合需要在其他系统上执行操作的任务。文章还介绍了Claude Code的课程和请求处理流程,以及前向代理、反向代理和API网关的功能与区别。

EP216:RAG与代理的区别

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-05-23T15:31:18Z

Browser Run 现已在 Cloudflare Containers 上运行,性能更快、可扩展性更强。用户每分钟可启动 60 个浏览器,最多同时运行 120 个,响应时间减少超过 50%。该平台支持无头浏览器,适用于网页应用测试和 AI 代理交互。通过迁移到 D1 数据库和队列,解决了性能瓶颈,实现了更高的请求处理能力,提升了用户体验。

Browser Run:现已在 Cloudflare Containers 上运行,性能更快、可扩展性更强

The Cloudflare Blog
The Cloudflare Blog · 2026-05-13T13:00:00Z
Modular:为什么大语言模型推理需要一种新型路由器 - 第1部分

Modular Cloud正在解决大语言模型(LLM)推理中的路由问题。传统负载均衡方法不适用于LLM,因为需要考虑状态、硬件特性和会话连续性。新的路由层能够根据缓存状态和硬件优化请求处理,支持多步骤执行,从而提升响应速度和效率。

Modular:为什么大语言模型推理需要一种新型路由器 - 第1部分

Modular Blog
Modular Blog · 2026-05-08T00:00:00Z

本文介绍了五个版本的socket编程,逐步实现处理多个请求的功能。版本1只能处理单个请求,版本2支持多个请求但无法通过ctrl+c退出,版本3支持多次使用并可正常退出,版本4增加了延时,版本5通过多线程实现同时处理多个请求,版本6实现了静态HTTP服务器的基本功能。

socket编程

f2h2h1's blog
f2h2h1's blog · 2025-12-31T07:40:07Z

liburing 提供了更友好的 API 来使用 io_uring,简化了内存管理和请求处理。使用 liburing 的流程包括初始化、获取请求、提交、等待完成和处理结果。示例代码展示了一个简单的 cat 命令,适合高并发场景。

【io_uring】liburing 基础 API 详解:从 Hello World 到文件 I/O

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2025-11-30T00:00:00Z

Valve是Tomcat容器中的核心拦截器,允许在请求处理过程中插入自定义逻辑。与Filter不同,Valve在容器级别执行,影响范围更广,优先级更高,适用于访问日志、安全审计和身份认证等场景。Tomcat架构包括Server、Service、Engine、Host、Context和Wrapper,采用Pipeline与Valve模式实现协同工作。

手把手实现Tomcat Valve内存马:从“一个应用”到“三大容器”

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-19T09:39:26Z

ASP.NET Core通过中间件管道处理请求,允许开发者创建自定义中间件。中间件按顺序执行任务,如身份验证和日志记录,决定是否继续传递请求或返回响应。最佳实践包括保持单一职责、清晰的异常处理和正确的依赖注入,自定义中间件提升了应用的灵活性和可组合性。

深入解析ASP.NET Core中间件管道:构建自定义请求处理链的完整指南

dotNET跨平台
dotNET跨平台 · 2025-11-16T23:58:53Z

Spring Interceptor是Spring MVC框架的一种机制,用于在请求处理的特定阶段执行自定义逻辑。开发者需实现HandlerInterceptor接口,并重写preHandle、postHandle和afterCompletion方法。拦截器可用于身份认证、日志记录和性能监控等。通过WebMvcConfigurer接口注册拦截器,以确保其在每个请求中生效。

Java安全之Spring Interceptor内存马

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-10-28T13:36:49Z

本文概述了TiDB的请求处理流程,从main函数开始,分析了服务监听、连接建立、握手、SQL解析、逻辑优化和物理执行等步骤,并提到预编译语句的性能优势,因其避免了重复编译和优化。

TiDB 源码阅读(一):服务监听、请求处理流程概览

Jiajun的编程随想
Jiajun的编程随想 · 2025-10-01T00:00:00Z
Quicksilver v2:全球分布式关键值存储的演变(第二部分)

Quicksilver是Cloudflare的关键值数据库,支持全球330个城市的服务器,能够快速响应请求并存储超过50亿个键值对。为了解决磁盘空间不足的问题,Quicksilver采用分层缓存架构,提高了缓存命中率,确保高效处理请求。

Quicksilver v2:全球分布式关键值存储的演变(第二部分)

The Cloudflare Blog
The Cloudflare Blog · 2025-07-17T13:00:00Z

Cloudflare Workers允许在网络边缘处理HTTP请求,无需更改后端代码。通过简单的JavaScript代码,可以实现A/B测试、访问控制、请求规范化和动态重定向等功能,支持读取和修改请求信息,提供灵活的处理能力。

Cloudflare Workers实战(一):随心所欲操作客户端请求

又耳笔记
又耳笔记 · 2025-07-15T02:47:13Z

Cloudflare的Workers服务是一个强大的可编程代理,支持请求处理和后端响应。用户可通过域名解锁防火墙和邮件服务。Workers与Cloudflare其他服务集成,适合轻量级业务,免费额度大,但在中国可能存在延迟。

Cloudflare workers不完全指南

又耳笔记
又耳笔记 · 2025-07-13T02:47:13Z
在Shifts管理Microsoft Graph API中弃用MS-APP-ACTS-AS头部

在应用程序仅访问场景中,Shifts管理图API已弃用MS-APP-ACTS-AS头部。请移除该头部,并使用新的API格式,确保请求体中包含用户ID。更改涉及批准、拒绝请求及时间卡的处理方式。

在Shifts管理Microsoft Graph API中弃用MS-APP-ACTS-AS头部

Microsoft 365 Developer Blog
Microsoft 365 Developer Blog · 2025-06-23T15:30:30Z
在Go中开发HTTP客户端:从安装到首次请求

本文为新手开发者提供了构建Go语言HTTP客户端的指南,涵盖基本知识、HTTP请求类型、响应处理及请求自动化,提供实践示例和最佳实践,以帮助开发安全可靠的HTTP客户端。

在Go中开发HTTP客户端:从安装到首次请求

DEV Community
DEV Community · 2025-05-30T13:00:47Z
使用hyperlane进行WebSocket广播

hyperlane框架原生支持WebSocket协议,简化了请求处理。文章展示了如何实现点对点和广播消息,服务器通过tokio::broadcast实现广播,客户端示例使用JavaScript每秒发送当前时间。hyperlane使构建实时WebSocket服务变得简单,无需手动管理协议细节。

使用hyperlane进行WebSocket广播

DEV Community
DEV Community · 2025-05-24T10:51:26Z
Hono 应用的速率限制:入门介绍

速率限制对生产应用至关重要,能够防止流量洪水和攻击。本文介绍了速率限制的基本概念及其在Hono应用中的实现,重点讨论了hono-rate-limiter的使用,包括客户端识别、请求速率配置和请求处理。后续文章将深入探讨速率限制算法及设计。

Hono 应用的速率限制:入门介绍

DEV Community
DEV Community · 2025-05-22T04:57:38Z
我如何优化Spring Boot应用程序以处理每秒100万请求🚀

本文介绍了如何将Spring Boot应用程序的请求处理能力从每秒5万提升至120万。通过识别瓶颈、采用响应式编程、优化数据库查询和配置,平均响应时间降至85毫秒。关键在于测量、优化和合理扩展,以确保系统在高负载下的稳定性。

我如何优化Spring Boot应用程序以处理每秒100万请求🚀

DEV Community
DEV Community · 2025-04-25T09:47:31Z
Java 阻塞队列

本文介绍了一种处理第三方API请求的解决方案,通过创建阻塞队列服务逐个发送请求,并在每次调用之间设置延迟,以避免超出速率限制。该方案使用Spring框架实现,包含请求的入队和处理逻辑。

Java 阻塞队列

DEV Community
DEV Community · 2025-04-17T12:32:53Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码