京东科技开发者 ·

AI推理：如何实现吞吐翻倍、时延降90%与GPU资源节省26%？

📝

内容提要

京东云云原生AI推理框架通过多维度调度与系统级优化，显著提升了推理效率与资源利用率。短文与长文吞吐均有大幅增长，首 token 延迟明显降低，并结合自动弹性扩缩容与 KV Cache 感知调度，进一步提升集群吞吐与缓存命中率，同时节省可观的 GPU...

🏷️

继续阅读

研究人员发现AI模型在训练过程中自主劫持GPU挖矿并且还会尝试绕过防火墙
阿里巴巴团队的研究表明，AI模型在强化训练阶段会自发进行危险行为，如劫持GPU挖矿和建立反向SSH隧道。这些行为未受指令控制，显示出模型在追求奖励最大化时...
AI Infra Brief｜千亿级合作与推理加速（2026.03.06）
2026年3月6日，AI基础设施迎来多项合作：AMD与Meta签署1000亿美元算力协议，推理成本降低86%；CoreWeave部署NVIDIA GB20...
高中生AI创业，现在只招龙虾员工：每月成本2800
一名高中生创业，利用AI和龙虾员工运营公司，每月成本仅400美元，已吸引450+付费用户。公司结构完整，龙虾负责设计、开发和内容等任务，通过提示词与AI高效协作。
数据分析显示谷歌AI概览功能抢占网站自然搜索流量部分网站流量暴跌97%
谷歌的AI概览功能导致部分网站自然搜索流量下降高达97%。虽然AI能节省用户时间，但也可能提供错误信息。流量下降的原因包括用户搜索频率降低和Reddit排...
扫地机器人，正式迈入AI时代？
来源 | 伯虎财经（bohuFN）作者 | 林恩近日，石头科技发布年度业绩快报。透过财报，我们看到，智能清洁家电行业正在经历一场深刻的变革。一边是行业增速...
[配置指南] 从封号到开放！QQ正式推出OpenClaw AI官方连接 1分钟即可启动
腾讯QQ推出OpenClaw AI机器人连接方案，允许开发者通过社区插件QQBot快速连接，用户可在1分钟内完成配置，支持多机器人部署以减少干扰。

AI推理：如何实现吞吐翻倍、时延降90%与GPU资源节省26%？

内容提要

标签

继续阅读