小红花·文摘

面向电商直播场景的全模态大模型推理加速方案

实时互动网 ·

3个月手搓Gamma架构，这个团队打造出了场景白盒化推理的“下一代内容OS”

量子位 ·

LaDiR：潜在扩散增强大型语言模型的文本推理

Apple Machine Learning Research ·

关于管理不善的天才假说的小型练习（长链推理中的语言模型）

blank ·

2026年第二季度，通过浏览器的WebGPU进行AI推理并不值得。尽管transformers.js升级后支持q8模型，但性能仍然不佳，且硬件支持有限。大多数设备不支持WebGPU，WASM推理速度慢，导致AI多在云端运行。国产AI芯片前景不乐观，CUDA生态复杂，推理过程中的矩阵运算面临许多挑战。

浏览器通过WebGPU上做AI推理

Est's Blog ·

DigitalOcean 专用推理：技术深度解析

The DigitalOcean Blog ·

DeepSeek V4四大工程突破：极低成本重塑行业格局与推理效率

极道 ·

从IDC到云上GPU：基于 Amazon EKS 的大模型推理混合云弹性部署实践

亚马逊AWS官方博客 ·

文章介绍了多种免费的GPU版OCR识别库和服务，适用于Windows和Linux平台，包括OnnxRuntime DML和PaddleOCR v5等，支持多种显卡，便于用户进行文字识别。

Windows、Linux免费CPU、GPU版OCR推理资源整理汇总

dotNET跨平台 ·

一分钟读论文：《PRIME：通过迭代记忆进化实现用户中心Agent的主动推理》

Micropaper ·

国内首家百亿估值纯推理GPU独角兽诞生！专访曦望联席CEO王湛：谁的推理成本更低谁就是赢家

量子位 ·

大语言模型推理三难问题：吞吐量、延迟与成本

The DigitalOcean Blog ·

谷歌将其TPU系列分为两种以适应智能时代

The New Stack ·

谷歌在Cloud Next发布了第八代自定义张量处理单元（TPU），包括TPU 8t和TPU 8i，分别针对大规模训练和低延迟推理任务进行优化。这些TPU旨在提高计算性能和能效，以满足AI代理的需求，推动AI模型的创新与应用，预计将在今年晚些时候推出。

我们的第八代TPU：为智能时代打造的两款芯片

The Keyword ·

C# OnnxRuntime 部署 DAViD 表面法线估计

dotNET跨平台 ·

本文探讨了量化在大模型推理中的重要性，强调通过将模型权重和激活从高精度压缩到低精度，显著降低显存和带宽需求。量化提高了推理效率，降低了成本，使得在有限硬件上运行大型模型成为可能。文章介绍了不同数据类型的特点、量化算法及其应用，强调了量化在长上下文和大批量推理中的优势。

【大模型基础设施工程】14：量化工程 —— INT8 / FP8 / FP4 / AWQ / GPTQ

土法炼钢兴趣小组的博客 ·

本文探讨了大模型基础设施的演变，涵盖训练、推理、RAG和Agent等技术，介绍了适合工程师的新技术栈及其应用，包括开源和商业解决方案。

大模型基础设施工程

土法炼钢兴趣小组的博客 ·

推测解码：工作原理、应用场景及其在推理架构中的位置

Redis Blog ·

本文探讨了大模型基础设施的必要性与发展历程，强调大模型的特点，如计算和内存密集、状态重、故障常态化及高成本。系列文章将涵盖从硬件到应用的五层模型，帮助工程师理解大模型的工程化过程及其挑战。未来的工程创新将是降低成本的关键，推理侧的重要性将超过训练侧。

【大模型基础设施工程】01：大模型基础设施全景 —— 训练、推理、RAG、Agent、观测

土法炼钢兴趣小组的博客 ·

本文探讨了大模型推理的工程差异，强调训练与推理的不同需求。推理分为Prefill和Decode两个阶段，前者关注计算吞吐，后者关注延迟。KV Cache的使用显著提高了推理效率，减少了计算复杂度。文章还介绍了Continuous Batching和Prefill/Decode分离的优势，强调了高并发场景下的显存管理和性能优化策略。

【大模型基础设施工程】11：推理引擎基础

土法炼钢兴趣小组的博客 ·