小红花·文摘 - 小红花技术领袖俱乐部

大型语言模型（LLM）在生产环境中的应用可能导致延迟和成本增加。优化策略包括测量延迟、减少输出令牌、使用小模型处理简单任务、减少模型调用次数、设计可缓存的提示、添加多层缓存、控制上下文预算、批处理非交互式工作、优化批处理、管理缓存和上下文长度、基准测试优化效果、实施流量控制和优雅降级。这些方法能有效降低延迟和成本，提高系统效率。

在生产环境中减少大型语言模型延迟和推理成本的12种方法

KDnuggets ·

如何在直播中使用美颜SDK保证延迟低？

如何在直播中使用美颜SDK保证延迟低？

实时互动网 ·

如何优化IM开发并发性能？

如何优化IM开发并发性能？

实时互动网 ·

本文探讨了多表连接的优化策略，包括连接顺序、物理连接算子和分布式连接方法。重点分析了DuckDB和Trino的连接规划，比较了Hash Join和Merge Join的性能，并介绍了动态分区裁剪（DPP）和数据倾斜问题的解决方案。最后，总结了连接规划的关键要素和未来研究方向。

【分布式 OLAP 查询引擎】Join 重排与物理算子选择

土法炼钢兴趣小组的博客 ·

Roofline模型用于判断算子是计算密集型还是内存密集型，算术强度（AI）是关键指标，定义为浮点运算数与内存搬运字节数之比。通过双对数图，Roofline展示了性能与算术强度的关系，分为带宽限制区和算力限制区。优化策略包括提高算术强度，采用算子融合和tiling等方法，以减少内存访问并提升性能。

【GPU 算子工程】Roofline 模型：判断算子是 compute-bound 还是 memory-bound

土法炼钢兴趣小组的博客 ·

连麦弱网优化：降级策略与体验保护

连麦弱网优化：降级策略与体验保护

实时互动网 ·

AI 范式雷达：《Agent的Token账单：1000倍消耗差异背后的工程真相》

AI 范式雷达：《Agent的Token账单：1000倍消耗差异背后的工程真相》

Micropaper ·

如何提升即时通讯出海送达率?

如何提升即时通讯出海送达率?

实时互动网 ·

如何优化即时通讯出海延迟?

如何优化即时通讯出海延迟?

实时互动网 ·

如何降低CDN直播延迟

如何降低CDN直播延迟

实时互动网 ·

本文介绍了MLIR中的张量和线性代数方言，强调它们在AI编译中的重要性。张量方言表示不可变的多维数组，支持创建、读取和修改等核心操作。线性代数方言用于表达结构化数值计算，包含命名操作和通用操作，并支持分块、融合和向量化等优化策略。最终，Linalg操作需降阶为实际循环，以实现高效计算。

【编译器工程与 MLIR】张量中端：Tensor 与 Linalg 方言

土法炼钢兴趣小组的博客 ·

搜索广告质量度优化的关键在于提升用户体验。质量度由预估点击率、业务相关性和落地页体验三部分构成。优化策略包括重构创意、梳理关键词结构和持续优化落地页。关注质量度与投资回报率的关系，才能有效提升广告效果。

搜索广告质量度优化实战：从6分到10分的进阶之路

老杨SEM博客 ·

预填充与解码：大型语言模型推理阶段解析

预填充与解码：大型语言模型推理阶段解析

Redis Blog ·

大语言模型推理三难问题：吞吐量、延迟与成本

大语言模型推理三难问题：吞吐量、延迟与成本

The DigitalOcean Blog ·

本文探讨了GPU在大模型训练中的优势，特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度，适合处理大规模矩阵运算。分析了GPU的执行模型、内存层级及Tensor Core的演进，强调带宽与算力平衡对性能的影响，并提出了优化策略以提高GPU在解码阶段的利用率。

【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink

土法炼钢兴趣小组的博客 ·

Cursor如何通过Vercel微前端和功能标志构建增长迭代循环

Cursor如何通过Vercel微前端和功能标志构建增长迭代循环

Vercel News ·

某电商平台在大促期间出现尾延迟问题，导致用户投诉。研究表明，尾延迟对用户体验的影响大于平均延迟。文章探讨了尾延迟的数学原理及优化策略，如对冲请求和绑定请求，以减少整体请求延迟。强调在大规模分布式系统中，管理尾延迟是提升用户满意度的关键。

【系统架构设计】延迟分析：从 P50 到 P999 的全链路追踪

土法炼钢兴趣小组的博客 ·

Python 3.15的JIT现已回归正轨

Python 3.15的JIT现已回归正轨

Ken Jin’s Blog ·

十六个Claude代理几乎在没有人类干预的情况下构建了一个C编译器

十六个Claude代理几乎在没有人类干预的情况下构建了一个C编译器

InfoQ ·

如何优化机器学习推理成本和性能

如何优化机器学习推理成本和性能

Redis Blog ·