小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付

小米推出了MiMo-V2.5-Pro-UltraSpeed模型,具备1T参数和1000+ TPS的推理速度,突破了GPU的性能限制。该模型在全栈开发任务中表现优异,能够快速生成高质量的复杂应用,推动了大模型的商业化进程。

实测小米最快1T大模型:吞吐量每秒1000+ Tokens,Vibe Coding七秒交付

量子位
量子位 · 2026-06-11T01:18:16Z
EP217:延迟与吞吐量与带宽

文章讨论了延迟、吞吐量和带宽的区别。延迟是数据包从发送者到接收者的时间,吞吐量是每秒成功传输的数据量,而带宽是连接的最大容量。低延迟不一定意味着高吞吐量,三者各自解决不同的问题。此外,文章介绍了谷歌的TPU芯片,专为深度学习设计,具有不同的训练和推理模式。

EP217:延迟与吞吐量与带宽

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-06-06T15:30:33Z
vLLM的Rust前端PR了,预处理吞吐量直接翻了5倍!

在新加坡的 PyTorch 会议上,Bugen Zhao 介绍了 vLLM 团队用 Rust 重写 Python 前端的工作,以解决高并发下的性能瓶颈。Rust 前端的吞吐量提升约 5.16 倍,CPU 占用降低,长尾延迟收敛,用户无需额外操作,Rust 二进制文件已打包进 Python Wheel,支持主要 API。

vLLM的Rust前端PR了,预处理吞吐量直接翻了5倍!

迷途小书童
迷途小书童 · 2026-05-31T10:37:43Z
DEKRA德凯授予联想消费笔记本Wi-Fi吞吐量3D场型暨路由环境自适应专项认证

DEKRA德凯近日为联想消费笔记本授予Wi-Fi吞吐量3D场型暨路由环境自适应认证。该认证基于联想的Smart Antenna技术,首次将3D T-PUT均匀性测试与动态路由环境模拟纳入认证体系,测试结果显示联想笔记本在三维均匀性和动态适配方面表现优异,核心性能指标显著高于行业标准。

DEKRA德凯授予联想消费笔记本Wi-Fi吞吐量3D场型暨路由环境自适应专项认证

全球TMT-美通国际
全球TMT-美通国际 · 2026-05-27T06:46:39Z
在AI Gateway上按成本、延迟或吞吐量对提供者进行排序

AI Gateway 允许用户根据成本、首次令牌时间(TTFT)或吞吐量(TPS)对模型提供者进行排序,以优化请求,选择最低成本或最低延迟的提供者。排序在请求时计算,并支持与其他路由选项结合使用,确保高效处理。

在AI Gateway上按成本、延迟或吞吐量对提供者进行排序

Vercel News
Vercel News · 2026-05-15T00:00:00Z
关于基准测试

基准测试数据库需遵循公平原则,确保客户端与数据库服务器分开,以避免延迟影响结果。选择相似资源,合理配置工作负载,关注查询与写入比例。测试应测量吞吐量和延迟,确保缓存预热,并记录所有配置。避免不当比较,确保可重复性,避免常见错误。

关于基准测试

PlanetScale - Blog
PlanetScale - Blog · 2026-05-05T00:00:00Z
大语言模型推理三难问题:吞吐量、延迟与成本

本文探讨了大语言模型(LLM)推理中的成本、延迟和吞吐量之间的权衡,强调了硬件选择、模型架构和量化等因素对优化的影响。理解成本的多维特性和优化策略对于有效管理基础设施预算至关重要。通过合理的工程决策和基准测试,可以在吞吐量和延迟之间找到最佳平衡,以满足不同工作负载的需求。

大语言模型推理三难问题:吞吐量、延迟与成本

The DigitalOcean Blog
The DigitalOcean Blog · 2026-04-22T15:56:14Z

本文讨论网络工程的核心主题,涵盖从链路层到应用层的多个方面,包括网络模型、以太网、IP协议、TCP、UDP、DNS、TLS等。提供了90篇相关内容的索引,旨在帮助理解网络的延迟、吞吐量和拥塞等工程权衡。

网络工程索引

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
Kimi新论文:把KVCache玩成新商业模式了

研究团队推出了Prefill-as-a-Service(PrFaaS),旨在解决大模型推理中的跨机房调度问题。该架构通过将Prefill计算卸载到专用集群,并利用普通以太网传输KV Cache,显著提升了吞吐量和降低了延迟。实验结果表明,PrFaaS在吞吐量上提升54%,P90延迟降低64%,有效支持长上下文场景。

Kimi新论文:把KVCache玩成新商业模式了

量子位
量子位 · 2026-04-19T10:19:45Z

文章讨论了通过批处理、流水线和并发模型优化系统吞吐量的方法。批处理可以减少固定开销,但过大批量可能增加延迟。流水线技术通过重叠多个处理阶段提高效率,而并发模型则利用多处理单元并行处理提升性能。优化需识别瓶颈,明确目标并进行调整,以实现高效性能。

【系统架构设计】吞吐量优化:批处理、流水线与并发模型

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-13T00:00:00Z
第54集:JDK 26如何提升G1的吞吐量

在Java 26中,G1垃圾收集器通过简化写屏障显著提升了吞吐量。本文探讨了区域、写屏障、并发标记和卡表等因素对吞吐量的影响,并指出G1将成为所有环境中的默认收集器。

第54集:JDK 26如何提升G1的吞吐量

insidejava
insidejava · 2026-04-09T00:00:00Z
优化吞吐量的Redis用于L2 KV缓存重用

Redis在2026年被评为Fast Company最具创新的公司之一。通过与LMCache的优化,Redis提升了大规模语言模型的缓存性能,KV缓存读取速度达到9-10 GB/s,显著提高了推理效率,帮助加速推理过程并降低成本。

优化吞吐量的Redis用于L2 KV缓存重用

Redis Blog
Redis Blog · 2026-03-30T00:00:00Z
Postgres性能:为何峰值吞吐量基准测试忽视了真正的问题

基准测试显示数据库在高峰期的吞吐量良好,但持续吞吐量更为关键。随着数据量增加,自动清理等维护过程可能滞后,导致性能下降。因此,应关注持续吞吐量上限,并监测自动清理和检查点压力等指标,以防止未来问题。

Postgres性能:为何峰值吞吐量基准测试忽视了真正的问题

Timescale Blog
Timescale Blog · 2026-03-27T14:30:33Z

微软计划改进WSL子系统,以提升Windows 11上的网络兼容性和吞吐量,缩小与macOS和Linux的差距,增强文件处理速度和安全性,吸引更多开发者留在Windows平台。

微软将改进WSL子系统的使用体验 目标不是能用而是更好用🚀🚀🚀

蓝点网
蓝点网 · 2026-03-20T23:50:16Z
新款NVIDIA Nemotron 3 Super为智能代理AI提供5倍更高的吞吐量

NVIDIA推出的Nemotron 3 Super模型拥有1200亿参数,支持复杂多智能体系统,具备高效推理能力和1百万token的上下文窗口,避免目标漂移,广泛应用于多个行业,提升工作效率,支持开发者自定义和部署。

新款NVIDIA Nemotron 3 Super为智能代理AI提供5倍更高的吞吐量

NVIDIA Blog
NVIDIA Blog · 2026-03-11T16:00:21Z
如何构建高吞吐量系统

在构建软件系统时,确保高吞吐量至关重要。吞吐量是指系统在特定时间内完成的工作量,与延迟不同。高吞吐量意味着在相同时间内处理更多事务,但可能导致延迟增加。通过批处理可以提高吞吐量,但会增加等待时间。本文探讨了构建高效系统的基本概念和策略。

如何构建高吞吐量系统

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-03-05T16:30:58Z
DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

DeepSeek推出的DualPath推理框架通过引入存储至解码引擎的路径,解决了I/O瓶颈,离线推理吞吐量提升1.87倍,在线服务提升1.96倍,有效利用闲置带宽,显著降低延迟。

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理性能

量子位
量子位 · 2026-02-27T08:11:51Z
优化用于推理的DigitalOcean Gradient™ AI GPU Droplets:在降低成本的同时提高吞吐量

为了实现生产级LLM推理,我们优化了整个服务堆栈,构建了高效的推理镜像。测试显示,使用2个H100 GPU时,吞吐量提高了143%,每百万个token的成本降低了75%。这种优化使得在更少的GPU上实现高效推理成为可能。

优化用于推理的DigitalOcean Gradient™ AI GPU Droplets:在降低成本的同时提高吞吐量

The DigitalOcean Blog
The DigitalOcean Blog · 2026-02-19T14:42:18Z

系统性能优化涉及延迟与吞吐量的平衡。优化措施可提升其中一项,但不当组合可能导致性能下降。批处理和微批处理提高效率,子任务并行化需谨慎调度。低精度计算和缓存平衡也是关键。整体优化需精心设计,以确保系统性能提升。

系统性能优化

Lei Mao's Log Book
Lei Mao's Log Book · 2026-02-16T08:00:00Z
GB300上的DeepSeek-V3.2:性能突破

DeepSeek-V3.2在GB300上成功运行,使用FP4量化在预填充场景中实现7360 TGS的吞吐量。与DeepSeek-R1相比,V3.2在推理性能上仍有提升空间。B300系列在预填充和混合场景中表现出显著性能提升,尽管V3.2引入了新索引器,但预填充阶段的吞吐量仍低于R1,未来有优化潜力。

GB300上的DeepSeek-V3.2:性能突破

vLLM Blog
vLLM Blog · 2026-02-13T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码