小红花·文摘

大语言模型推理三难问题：吞吐量、延迟与成本

The DigitalOcean Blog ·

RAG（检索增强生成）是解决大语言模型（LLM）结构性缺陷的关键。它通过知识解耦和外部存储检索，降低幻觉率，实现知识快速更新，确保私有数据安全并提供可追溯性。RAG系统包括离线ETL和在线查询，涉及文档解析、清洗、切片、嵌入和检索等环节，高质量的文档解析和有效的检索策略是其成功的基础。

【大模型基础设施工程】17：RAG 工程全景

土法炼钢兴趣小组的博客 ·

推测解码：工作原理、应用场景及其在推理架构中的位置

Redis Blog ·

本文讨论了大语言模型（LLM）推理引擎的现代化技术，包括连续批处理和分页注意力。这些技术显著提升了LLM的吞吐量和GPU利用率，同时优化了显存利用率。文章还介绍了分块预填充和前缀缓存等策略，以降低延迟和提高效率，强调在生产环境中应用这些技术的重要性。

【大模型基础设施工程】12：PagedAttention 与 Continuous Batching

土法炼钢兴趣小组的博客 ·

多代理大语言模型系统为何失败及其解决方案

Redis Blog ·

大语言模型微调实用指南

Databricks ·

Browser Harness是一种浏览器操控工具：让大模型自主完成任务！

极道 ·

大语言模型推理缓存完整指南

MachineLearningMastery.com ·

Workers AI 正在构建支持超大语言模型的基础设施，通过硬件优化、预填解码分离、提示缓存和 KV 缓存优化等技术，提高了模型的处理速度和效率。新推出的推测解码技术加速了推理过程，Cloudflare 的专有推理引擎 Infire 进一步提升了多 GPU 支持和启动速度，确保模型高效运行。

构建支持超大语言模型的基础设施

The Cloudflare Blog ·

LLM（大语言模型）在DevOps中的应用包括代码与配置生成、智能排障和基础设施代码安全审查。它能够快速生成基础设施配置，缩短CI/CD配置时间，提高开发效率。同时，LLM可分析日志，快速定位问题并推荐修复方案，显著减少事件解决时间。此外，LLM还能够审查基础设施代码中的安全风险，增强DevOps流水线的安全性。