小红花·文摘

当多模态开始卷落地：MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经 ·

测试表明，NetServer在纯接收情况下每秒可处理1.4亿数据包，带编码协议头时每秒可处理190万个RPC请求。与StandardCodec相比，LengthFieldCodec在吞吐量和内存使用上表现更佳，滑动窗口模式提升显著。建议减少字典查找以优化性能。

【2026压01】网络库吞吐性能测试

dotNET跨平台 ·

AI推理：如何实现吞吐翻倍、时延降90%与GPU资源节省26%？

京东科技开发者 ·

Wireshark tcptrace 图解读

三点水 ·

分析抓包文件显示，新设备吞吐量下降主要因网卡LRO功能失效，导致数据包处理效率降低。尽管新旧设备转发速度相似，但包大小分布和ID不连续影响性能，造成部分请求超时。

LRO/GRO 对于网络吞吐的影响

卡瓦邦噶！ ·

rathole – 一个轻量级开源内网穿透工具，高吞吐、低占用，类 frp 工具

小众软件 ·

在2025大模型服务性能排行榜中，PPIO在DeepSeek-R1-0528的吞吐测试中以45.17 tokens/s排名第一，表现出色，获得行业认可，专注于优化AI基础设施。

2025大模型服务性能排行榜：PPIO吞吐测试排名第一

量子位 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

英伟达再出手！新型混合架构模型问世，两大创新实现53.6倍吞吐提速

机器之心 ·

英伟达推出的Llama Nemotron Super v1.5开源模型专为复杂推理和智能体任务设计，吞吐量提升三倍，单卡高效运行。该模型通过神经架构搜索优化，兼顾准确性与效率，适合英语对话和编程任务。

英伟达全新开源模型：三倍吞吐、单卡可跑，还拿下推理SOTA

量子位 ·

浙大与上海AI Lab提出的邻近自回归建模（NAR）通过“下一个邻域预测”显著提升了视觉生成的效率和质量。NAR模型在多个任务中实现了13.8倍的吞吐量提升，减少了生成步骤，特别在高分辨率图像和视频生成中表现出优势。

13.8倍吞吐提升！浙大上海AI Lab等提出视觉生成新范式，从“下一个token”到“下一个邻域”

量子位 ·

飞桨框架3.0增强了大模型推理能力，支持多种主流大模型，优化了量化和推理性能。通过4比特量化，单机部署显著提升吞吐量，同时支持FP8和INT8量化。MLA算子优化提升了23%性能，MTP投机解码加速大批次推理，整体提供高效、经济的推理部署方案，兼容多种硬件平台。

飞桨框架3.0推理升级：支持多款主流大模型、DeepSeek-R1满血版实现单机部署，吞吐提升一倍！...

百度大脑 ·

无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

机器之心 ·

清华大学PACMAN实验室发布了MixQ开源系统，支持8比特和4比特混合精度推理，实现大模型的近无损量化并提升推理速度。MixQ通过量化权重和激活，利用低精度张量核心加速推理，并提取激活中的离群值以保持准确性。该系统已支持多个主流大模型，并在SC’24会议上发表。其设计通过等价变换、数据结构优化和高性能算子生成，显著提升性能。

清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐

量子位 ·

颜水成和袁粒团队提出了新架构MoE++，通过引入“零计算量专家”提升性能和速度。MoE++允许每个Token使用不同数量的FFN专家，降低计算成本，提高复杂Token处理能力。实验表明，MoE++在相同模型大小下性能优于传统MoE，专家吞吐速度提升1.1到2.1倍。模型权重已开源，展示了不同任务中的专家负载分布差异。

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

量子位 ·

通过自适应 KV 缓存压缩的插拔式方法，减少大型语言模型生成推理内存占用。实验证明FastGen在GPU内存消耗方面显著减少，生成质量几乎没有损失。

金字塔推理：金字塔 KV 缓存压缩用于高吞吐率 LLM 推理

BriefGPT - AI 论文速递 ·

论文设计了新的CNN-ViT混合神经网络FasterViT，重点关注计算机视觉应用的图像吞吐能力。FasterViT结合CNN的局部特征学习的特性和ViT的全局建模特性，引入分层注意力（HAT）方法在降低计算成本的同时增加窗口间的交互。在包括分类、对象检测和分割各种CV任务上，FasterViT在精

FasterViT：英伟达提出分层注意力，构造高吞吐CNN-ViT混合网络 | ICLR 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文强调了选择正确的LLM推理栈的重要性，以及如何选择适合任务的模型和推理代码。作者提出了改善性能的技巧，如分组查询注意力、量化、分页注意力、滑动窗口注意力和连续批处理。还讨论了吞吐量、时延和成本，并提到了开源部署解决方案。最后，作者回答了听众提出的问题。

Mistral AI：探索LLM推理的吞吐、时延及成本空间

OneFlow深度学习框架 ·

Debug 网络质量的时候，我们一般会关注两个因素：延迟和吞吐量（带宽）。延迟比较好验证，Ping 一下或者 […]

使用 Wireshark 分析 TCP 吞吐瓶颈

运维派 ·

Linux 性能优化

Lenix ·

Debug 网络质量的时候，我们一般会关注两个因素：延迟和吞吐量（带宽）。延迟比较好验证，Ping 一下或者 […]Continue reading... The post 用 Wireshark 分析 TCP 吞吐瓶颈 first appeared on 卡瓦邦噶！.相关文章:Django的日志配置部署Sentry使用 mtr 检查网络问题，以及注意事项Django...

用 Wireshark 分析 TCP 吞吐瓶颈

卡瓦邦噶！ ·