小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
面向电商直播场景的全模态大模型推理加速方案

本文介绍了电商直播场景下的全模态理解大模型TLiveOmni在vLLM框架下的推理部署与量化优化。通过自定义插件和修复多模态Token排布,解决了vLLM对Omni模型支持不足的问题。采用SmoothQuant与GPTQ的复合量化方案,构建了5000条高质量数据的校准集,确保模型效果。最终在H20与RTX 4090上测试,推理加速达2.5至3.5倍,精度损失控制在1.5%以内。

面向电商直播场景的全模态大模型推理加速方案

实时互动网
实时互动网 · 2026-04-29T10:39:31Z
3个月手搓Gamma架构,这个团队打造出了场景白盒化推理的“下一代内容OS”

AI内容创作正从生成模式转向任务执行模式,Pi系统通过结合AI生成与用户编辑,实现内容创作的可编辑化和系统化,提升协作效率,支持多种格式导出,推动内容生产向白盒化发展。Pi已获得广泛用户认可,标志着AI创作进入新阶段。

3个月手搓Gamma架构,这个团队打造出了场景白盒化推理的“下一代内容OS”

量子位
量子位 · 2026-04-28T02:15:27Z
LaDiR:潜在扩散增强大型语言模型的文本推理

LaDiR(潜在扩散推理器)是一种新颖的推理框架,结合了连续潜在表示的表达能力与潜在扩散模型的迭代精炼能力。通过变分自编码器(VAE)构建的结构化潜在推理空间,LaDiR在数学推理和规划基准测试中展现出更高的准确性、多样性和可解释性,开辟了文本推理的新范式。

LaDiR:潜在扩散增强大型语言模型的文本推理

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-28T00:00:00Z
关于管理不善的天才假说的小型练习(长链推理中的语言模型)

文章讨论了语言模型(LM)在复杂推理任务中的表现,特别是LongCoT基准测试。尽管最新模型(如GPT-5.2)在某些任务上表现不佳,但通过改进提示和训练,模型性能显著提升。研究表明,模型在处理图结构依赖时存在困难,提示设计对模型表现影响巨大。整体来看,模型能力的理解仍需深入。

关于管理不善的天才假说的小型练习(长链推理中的语言模型)

blank
blank · 2026-04-26T00:00:00Z

2026年第二季度,通过浏览器的WebGPU进行AI推理并不值得。尽管transformers.js升级后支持q8模型,但性能仍然不佳,且硬件支持有限。大多数设备不支持WebGPU,WASM推理速度慢,导致AI多在云端运行。国产AI芯片前景不乐观,CUDA生态复杂,推理过程中的矩阵运算面临许多挑战。

浏览器通过WebGPU上做AI推理

Est's Blog
Est's Blog · 2026-04-25T08:53:00Z
DigitalOcean 专用推理:技术深度解析

Dedicated Inference是DigitalOcean AI平台上的托管LLM服务,旨在为需要高性能和可预测成本的团队提供专用GPU推理。该服务简化了基础设施管理,支持快速部署和扩展,确保在高负载下满足服务水平协议,让用户专注于模型选择和工作负载调优。

DigitalOcean 专用推理:技术深度解析

The DigitalOcean Blog
The DigitalOcean Blog · 2026-04-25T02:51:09Z
DeepSeek V4四大工程突破:极低成本重塑行业格局与推理效率

DeepSeek V4通过混合专家架构和计算优化,显著降低了AI推理成本并提升了能力。该模型使普通开发者以低成本使用强大AI,打破了算力垄断。优化的路由策略和长文本处理能力提高了计算资源利用率,促进了AI行业的创新与发展。

DeepSeek V4四大工程突破:极低成本重塑行业格局与推理效率

极道
极道 · 2026-04-25T01:02:00Z
从IDC到云上GPU:基于 Amazon EKS 的大模型推理混合云弹性部署实践

本文介绍了基于Amazon EKS和NVIDIA NIM的混合云大模型推理架构,强调本地GPU优先和云上弹性扩展的策略。通过KEDA和Karpenter实现自动扩缩容,优化成本和性能,满足中国客户需求。该方案解决了延迟、数据本地化和成本问题,提供统一监控和最佳实践,帮助企业有效利用现有GPU资源。

从IDC到云上GPU:基于 Amazon EKS 的大模型推理混合云弹性部署实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-24T06:02:50Z

文章介绍了多种免费的GPU版OCR识别库和服务,适用于Windows和Linux平台,包括OnnxRuntime DML和PaddleOCR v5等,支持多种显卡,便于用户进行文字识别。

Windows、Linux免费CPU、GPU版OCR推理资源整理汇总

dotNET跨平台
dotNET跨平台 · 2026-04-24T00:01:30Z
一分钟读论文:《PRIME:通过迭代记忆进化实现用户中心Agent的主动推理》

康奈尔大学的研究提出了PRIME框架,通过显式经验积累实现用户中心Agent的持续进化,避免了梯度学习的高成本和可解释性问题。该框架提炼成功策略、失败模式和用户偏好,实验表明其性能与传统方法相当,且运行成本低,决策过程透明。然而,PRIME在记忆管理和跨用户泛化方面仍面临挑战。

一分钟读论文:《PRIME:通过迭代记忆进化实现用户中心Agent的主动推理》

Micropaper
Micropaper · 2026-04-24T00:00:00Z
国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家

曦望公司在一年内完成七轮融资,成为国内首家估值超百亿的纯推理GPU独角兽。王湛表示,推理算力需求激增,未来将超越训练算力。新一代推理GPU芯片启望S3旨在将百万Token成本降至一分钱,以满足高频调用和长上下文的需求,推动AI技术普及。

国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家

量子位
量子位 · 2026-04-23T14:28:57Z
大语言模型推理三难问题:吞吐量、延迟与成本

本文探讨了大语言模型(LLM)推理中的成本、延迟和吞吐量之间的权衡,强调了硬件选择、模型架构和量化等因素对优化的影响。理解成本的多维特性和优化策略对于有效管理基础设施预算至关重要。通过合理的工程决策和基准测试,可以在吞吐量和延迟之间找到最佳平衡,以满足不同工作负载的需求。

大语言模型推理三难问题:吞吐量、延迟与成本

The DigitalOcean Blog
The DigitalOcean Blog · 2026-04-22T15:56:14Z
谷歌将其TPU系列分为两种以适应智能时代

谷歌在Cloud Next上推出了TPU 8t和TPU 8i两款新芯片,分别针对训练和推理进行优化。TPU 8t适合训练,保持3D环形互连,而TPU 8i则提升内存带宽,专注于推理性能。谷歌认为,单一加速器无法同时满足这两种需求,分化是提升性价比的关键。新芯片支持裸金属访问,方便开发者使用。

谷歌将其TPU系列分为两种以适应智能时代

The New Stack
The New Stack · 2026-04-22T12:00:00Z

谷歌在Cloud Next发布了第八代自定义张量处理单元(TPU),包括TPU 8t和TPU 8i,分别针对大规模训练和低延迟推理任务进行优化。这些TPU旨在提高计算性能和能效,以满足AI代理的需求,推动AI模型的创新与应用,预计将在今年晚些时候推出。

我们的第八代TPU:为智能时代打造的两款芯片

The Keyword
The Keyword · 2026-04-22T12:00:00Z
C# OnnxRuntime 部署 DAViD 表面法线估计

该文章介绍了一个使用ONNX模型进行法线估计的应用程序。用户可以选择图片,程序会处理并生成法线彩色图。主要步骤包括图像预处理、推理、后处理和结果显示,用户还可以保存生成的法线图像。

C# OnnxRuntime 部署 DAViD 表面法线估计

dotNET跨平台
dotNET跨平台 · 2026-04-22T00:03:30Z

本文探讨了量化在大模型推理中的重要性,强调通过将模型权重和激活从高精度压缩到低精度,显著降低显存和带宽需求。量化提高了推理效率,降低了成本,使得在有限硬件上运行大型模型成为可能。文章介绍了不同数据类型的特点、量化算法及其应用,强调了量化在长上下文和大批量推理中的优势。

【大模型基础设施工程】14:量化工程 —— INT8 / FP8 / FP4 / AWQ / GPTQ

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了大模型基础设施的演变,涵盖训练、推理、RAG和Agent等技术,介绍了适合工程师的新技术栈及其应用,包括开源和商业解决方案。

大模型基础设施工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
推测解码:工作原理、应用场景及其在推理架构中的位置

本文讨论了推测解码在大语言模型推理中的应用,旨在加速请求而不影响输出。通过使用小型草稿模型生成多个候选令牌,主模型可以快速验证这些候选,从而提高生成速度。不同变体如EAGLE-3和SuffixDecoding针对不同限制进行了优化,显著提升了速度。推测解码与语义缓存相辅相成,有效降低请求延迟。选择合适的技术与工作负载匹配是实现最佳性能的关键。

推测解码:工作原理、应用场景及其在推理架构中的位置

Redis Blog
Redis Blog · 2026-04-22T00:00:00Z

本文探讨了大模型基础设施的必要性与发展历程,强调大模型的特点,如计算和内存密集、状态重、故障常态化及高成本。系列文章将涵盖从硬件到应用的五层模型,帮助工程师理解大模型的工程化过程及其挑战。未来的工程创新将是降低成本的关键,推理侧的重要性将超过训练侧。

【大模型基础设施工程】01:大模型基础设施全景 —— 训练、推理、RAG、Agent、观测

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了大模型推理的工程差异,强调训练与推理的不同需求。推理分为Prefill和Decode两个阶段,前者关注计算吞吐,后者关注延迟。KV Cache的使用显著提高了推理效率,减少了计算复杂度。文章还介绍了Continuous Batching和Prefill/Decode分离的优势,强调了高并发场景下的显存管理和性能优化策略。

【大模型基础设施工程】11:推理引擎基础

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码