小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

OpenBMB推出的MiniCPM-o-4.5模型仅用9B参数实现全模态能力,强调跨模态对齐与推理效率,适合主流GPU部署,具备高性能与轻量化优势。

当多模态开始卷落地:MiniCPM-o-4.5仅9B覆盖实时图像理解与文本生成;vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

HyperAI超神经
HyperAI超神经 · 2026-02-28T06:48:25Z

测试表明,NetServer在纯接收情况下每秒可处理1.4亿数据包,带编码协议头时每秒可处理190万个RPC请求。与StandardCodec相比,LengthFieldCodec在吞吐量和内存使用上表现更佳,滑动窗口模式提升显著。建议减少字典查找以优化性能。

【2026压01】网络库吞吐性能测试

dotNET跨平台
dotNET跨平台 · 2026-02-28T00:02:18Z
AI推理:如何实现吞吐翻倍、时延降90%与GPU资源节省26%?

京东云推出云原生AI推理框架,解决传统推理系统的稳定性、资源利用率和性能瓶颈问题。该框架通过智能流量调度、自动弹性扩缩容和故障自愈机制,提升推理效率和资源利用率,短文吞吐提升超过120%,GPU资源节省约26%。

AI推理:如何实现吞吐翻倍、时延降90%与GPU资源节省26%?

京东科技开发者
京东科技开发者 · 2026-02-11T06:05:35Z
Wireshark tcptrace 图解读

tcptrace用于分析TCP吞吐问题,图中横轴为时间,纵轴为序列号。蓝线表示发送数据,绿色线为接收窗口,棕黄线为已确认数据,红线为选择确认。通过图中距离可得出在途字节、窗口余量和RTT等信息。建议同时抓包以获取全面数据,常见问题如丢包和窗口限制可通过图形化方式分析。

Wireshark tcptrace 图解读

三点水
三点水 · 2025-11-22T15:40:00Z

分析抓包文件显示,新设备吞吐量下降主要因网卡LRO功能失效,导致数据包处理效率降低。尽管新旧设备转发速度相似,但包大小分布和ID不连续影响性能,造成部分请求超时。

LRO/GRO 对于网络吞吐的影响

卡瓦邦噶!
卡瓦邦噶! · 2025-11-21T07:39:40Z
rathole – 一个轻量级开源内网穿透工具,高吞吐、低占用,类 frp 工具

rathole是一款开源的轻量级内网穿透工具,延迟与frp相近,但在高并发下表现更佳,资源占用更少。支持Windows、macOS、Linux,需公网IP,配置简单,但更新不频繁,建议无必要不折腾。

rathole – 一个轻量级开源内网穿透工具,高吞吐、低占用,类 frp 工具

小众软件
小众软件 · 2025-09-30T08:07:11Z

在2025大模型服务性能排行榜中,PPIO在DeepSeek-R1-0528的吞吐测试中以45.17 tokens/s排名第一,表现出色,获得行业认可,专注于优化AI基础设施。

2025大模型服务性能排行榜:PPIO吞吐测试排名第一

量子位
量子位 · 2025-09-16T09:23:02Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

英伟达再出手!新型混合架构模型问世,两大创新实现53.6倍吞吐提速

机器之心
机器之心 · 2025-08-26T10:09:47Z

英伟达推出的Llama Nemotron Super v1.5开源模型专为复杂推理和智能体任务设计,吞吐量提升三倍,单卡高效运行。该模型通过神经架构搜索优化,兼顾准确性与效率,适合英语对话和编程任务。

英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA

量子位
量子位 · 2025-07-29T07:05:03Z

浙大与上海AI Lab提出的邻近自回归建模(NAR)通过“下一个邻域预测”显著提升了视觉生成的效率和质量。NAR模型在多个任务中实现了13.8倍的吞吐量提升,减少了生成步骤,特别在高分辨率图像和视频生成中表现出优势。

13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”

量子位
量子位 · 2025-03-30T02:55:59Z

飞桨框架3.0增强了大模型推理能力,支持多种主流大模型,优化了量化和推理性能。通过4比特量化,单机部署显著提升吞吐量,同时支持FP8和INT8量化。MLA算子优化提升了23%性能,MTP投机解码加速大批次推理,整体提供高效、经济的推理部署方案,兼容多种硬件平台。

飞桨框架3.0推理升级:支持多款主流大模型、DeepSeek-R1满血版实现单机部署,吞吐提升一倍!...

百度大脑
百度大脑 · 2025-03-12T13:18:10Z
无问芯穹提出混合稀疏注意力方案MoA,加速长文本生成,实现最高8倍吞吐率提升

随着大语言模型对长文本需求的增加,注意力机制的计算成本和键值缓存问题愈发明显。清华大学等团队提出了混合稀疏注意力(MoA)方法,通过不同稀疏度的注意力头,显著提升了上下文理解能力和计算效率,减少了内存需求,优化了长文本处理效果。实验结果表明,MoA在多种模型上表现优异,提高了信息检索准确率和生成吞吐量。

无问芯穹提出混合稀疏注意力方案MoA,加速长文本生成,实现最高8倍吞吐率提升

机器之心
机器之心 · 2024-11-08T05:12:40Z

清华大学PACMAN实验室发布了MixQ开源系统,支持8比特和4比特混合精度推理,实现大模型的近无损量化并提升推理速度。MixQ通过量化权重和激活,利用低精度张量核心加速推理,并提取激活中的离群值以保持准确性。该系统已支持多个主流大模型,并在SC’24会议上发表。其设计通过等价变换、数据结构优化和高性能算子生成,显著提升性能。

清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐

量子位
量子位 · 2024-10-21T06:00:32Z

颜水成和袁粒团队提出了新架构MoE++,通过引入“零计算量专家”提升性能和速度。MoE++允许每个Token使用不同数量的FFN专家,降低计算成本,提高复杂Token处理能力。实验表明,MoE++在相同模型大小下性能优于传统MoE,专家吞吐速度提升1.1到2.1倍。模型权重已开源,展示了不同任务中的专家负载分布差异。

颜水成袁粒提出新一代MoE架构:专家吞吐速度最高提升2.1倍!

量子位
量子位 · 2024-10-21T02:07:06Z

通过自适应 KV 缓存压缩的插拔式方法,减少大型语言模型生成推理内存占用。实验证明FastGen在GPU内存消耗方面显著减少,生成质量几乎没有损失。

金字塔推理:金字塔 KV 缓存压缩用于高吞吐率 LLM 推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-21T00:00:00Z

论文设计了新的CNN-ViT混合神经网络FasterViT,重点关注计算机视觉应用的图像吞吐能力。FasterViT结合CNN的局部特征学习的特性和ViT的全局建模特性,引入分层注意力(HAT)方法在降低计算成本的同时增加窗口间的交互。在包括分类、对象检测和分割各种CV任务上,FasterViT在精

FasterViT:英伟达提出分层注意力,构造高吞吐CNN-ViT混合网络 | ICLR 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记
晓飞的算法工程笔记 · 2024-04-23T05:29:00Z

本文强调了选择正确的LLM推理栈的重要性,以及如何选择适合任务的模型和推理代码。作者提出了改善性能的技巧,如分组查询注意力、量化、分页注意力、滑动窗口注意力和连续批处理。还讨论了吞吐量、时延和成本,并提到了开源部署解决方案。最后,作者回答了听众提出的问题。

Mistral AI:探索LLM推理的吞吐、时延及成本空间

OneFlow深度学习框架
OneFlow深度学习框架 · 2024-01-24T01:18:25Z

Debug 网络质量的时候,我们一般会关注两个因素:延迟和吞吐量(带宽)。延迟比较好验证,Ping 一下或者 […]

使用 Wireshark 分析 TCP 吞吐瓶颈

运维派
运维派 · 2023-03-22T05:57:56Z
Linux 性能优化

性能优化的两个核心指标是吞吐和延时,实际上就是找出应用或系统的瓶颈,通过工具查看上下文切换情况、CPU使用率、中断次数等,以及perf来分析具体的性能问题,解决系统CPU使用率过高的问题,以及大量不可中断进程和僵尸进程时的iowait过高、磁盘读写性能问题等。

Linux 性能优化

Lenix
Lenix · 2023-02-19T03:13:09Z

Debug 网络质量的时候,我们一般会关注两个因素:延迟和吞吐量(带宽)。延迟比较好验证,Ping 一下或者 […]Continue reading... The post 用 Wireshark 分析 TCP 吞吐瓶颈 first appeared on 卡瓦邦噶!.相关文章:Django的日志配置部署Sentry使用 mtr 检查网络问题,以及注意事项Django...

用 Wireshark 分析 TCP 吞吐瓶颈

卡瓦邦噶!
卡瓦邦噶! · 2022-08-17T15:24:57Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码