小红花·文摘 - 小红花技术领袖俱乐部

大语言模型推理三难问题：吞吐量、延迟与成本

大语言模型推理三难问题：吞吐量、延迟与成本

The DigitalOcean Blog ·

本文讨论网络工程的核心主题，涵盖从链路层到应用层的多个方面，包括网络模型、以太网、IP协议、TCP、UDP、DNS、TLS等。提供了90篇相关内容的索引，旨在帮助理解网络的延迟、吞吐量和拥塞等工程权衡。

网络工程索引

土法炼钢兴趣小组的博客 ·

Kimi新论文：把KVCache玩成新商业模式了

量子位 ·

文章讨论了通过批处理、流水线和并发模型优化系统吞吐量的方法。批处理可以减少固定开销，但过大批量可能增加延迟。流水线技术通过重叠多个处理阶段提高效率，而并发模型则利用多处理单元并行处理提升性能。优化需识别瓶颈，明确目标并进行调整，以实现高效性能。

【系统架构设计百科】吞吐量优化：批处理、流水线与并发模型

土法炼钢兴趣小组的博客 ·

第54集：JDK 26如何提升G1的吞吐量

第54集：JDK 26如何提升G1的吞吐量

insidejava ·

优化吞吐量的Redis用于L2 KV缓存重用

优化吞吐量的Redis用于L2 KV缓存重用

Redis Blog ·

Postgres性能：为何峰值吞吐量基准测试忽视了真正的问题

Postgres性能：为何峰值吞吐量基准测试忽视了真正的问题

Timescale Blog ·

微软计划改进WSL子系统，以提升Windows 11上的网络兼容性和吞吐量，缩小与macOS和Linux的差距，增强文件处理速度和安全性，吸引更多开发者留在Windows平台。

微软将改进WSL子系统的使用体验目标不是能用而是更好用🚀🚀🚀

蓝点网 ·

新款NVIDIA Nemotron 3 Super为智能代理AI提供5倍更高的吞吐量

新款NVIDIA Nemotron 3 Super为智能代理AI提供5倍更高的吞吐量

NVIDIA Blog ·

如何构建高吞吐量系统

如何构建高吞吐量系统

ByteByteGo Newsletter ·

DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能

DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能

量子位 ·

优化用于推理的DigitalOcean Gradient™ AI GPU Droplets：在降低成本的同时提高吞吐量

优化用于推理的DigitalOcean Gradient™ AI GPU Droplets：在降低成本的同时提高吞吐量

The DigitalOcean Blog ·

系统性能优化涉及延迟与吞吐量的平衡。优化措施可提升其中一项，但不当组合可能导致性能下降。批处理和微批处理提高效率，子任务并行化需谨慎调度。低精度计算和缓存平衡也是关键。整体优化需精心设计，以确保系统性能提升。

系统性能优化

Lei Mao's Log Book ·

GB300上的DeepSeek-V3.2：性能突破

vLLM Blog ·

本文介绍了MinIO集群的配置与测试，包括配置文件准备、HAProxy容器启动、客户端设置及性能测试。测试结果表明，经过HAProxy的GET和PUT吞吐量接近多节点直连，整体性能良好。

使用 HAProxy 代理 MinIO 及性能测试

陈少文的博客 ·

本文总结了MinIO集群在不同文件大小下的性能测试结果。4KiB和4MiB文件的读写性能良好，适合高并发需求；而100MiB文件在高并发时吞吐量提升有限，且小文件存储效率较低。

多机多盘 MinIO 集群在不同纠删码配置下的性能测试

陈少文的博客 ·

本文探讨了在IPoIB环境下进行的MinIO集群性能测试，包括集群的创建与清理，以及在不同数据和校验位配置下的吞吐量测试。结果表明，网络带宽和磁盘IO对性能影响显著，SSD存储可实现高吞吐量，而校验位数量则影响写入性能。

多机多盘 minio 集群不同纠删码配置在 IPoIB 下的性能测试

陈少文的博客 ·

LLM推理基准测试 - 测量重要指标

LLM推理基准测试 - 测量重要指标

The DigitalOcean Blog ·

Workflow 4.1 Beta：事件源架构

Workflow 4.1 Beta：事件源架构

Vercel News ·

Uber从静态限制转向优先级感知的分布式存储负载控制

Uber从静态限制转向优先级感知的分布式存储负载控制

InfoQ ·