小红花·文摘 - 小红花技术领袖俱乐部

开源AI性价比之王DeepSeek v4发布：1.6T参数仅售3.48美元！

开源AI性价比之王DeepSeek v4发布：1.6T参数仅售3.48美元！

极道 ·

大语言模型推理三难问题：吞吐量、延迟与成本

大语言模型推理三难问题：吞吐量、延迟与成本

The DigitalOcean Blog ·

将 Florence-2 部署到 Inferentia2 的实战指南

将 Florence-2 部署到 Inferentia2 的实战指南

亚马逊AWS官方博客 ·

认识KARL：一个更快的企业知识代理，基于定制的强化学习

认识KARL：一个更快的企业知识代理，基于定制的强化学习

Databricks ·

领先的推理提供商通过NVIDIA Blackwell上的开源模型将AI成本降低至10倍

领先的推理提供商通过NVIDIA Blackwell上的开源模型将AI成本降低至10倍

NVIDIA Blog ·

曦望发布了新一代推理GPU芯片启望S3，专注于推理效率和成本，显存容量提升4倍，推理成本下降约90%。同时推出寰望SC3超节点方案，优化推理能力和系统稳定性，推动推理云平台发展，强调降低推理成本的重要性。

曦望发布推理GPU S3：All-in推理的国产GPU，开始算单位Token成本

量子位 ·

如何优化机器学习推理成本和性能

如何优化机器学习推理成本和性能

Redis Blog ·

浪潮信息推出元脑HC1000超扩展AI服务器，将推理成本降低至每百万token 1元，以支持AI产业化。刘军表示，未来token成本需显著降低，以应对快速增长的需求，推动AI普惠落地。

推理成本打到1元/每百万token，浪潮信息撬动Agent规模化的“最后一公里”

量子位 ·

浪潮信息元脑HC1000实现推理成本首次击破1元/每百万token

浪潮信息元脑HC1000实现推理成本首次击破1元/每百万token

全球TMT-美通国际 ·

从KV Cache到Prompt Cache的应用

从KV Cache到Prompt Cache的应用

Shadow Walker 松烟阁 ·

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

DeepSeek-V3.2-Exp：用稀疏注意力实现更高效的长上下文推理

我爱自然语言处理 ·

Flash Attention的作者Tri Dao在播客中预测，未来三年内英伟达将失去GPU市场主导地位，AI硬件生态将变得多元化。他指出推理成本已下降100倍，未来有望再降10倍，技术进步将推动AI硬件发展。

Flash Attention作者最新播客：英伟达GPU统治三年内将终结

量子位 ·

OpenAI的gpt-oss模型采用MXFP4数据类型，推理成本降低75%，速度提升4倍。80GB显卡可运行1200亿参数模型，16GB显卡可运行200亿参数。MXFP4通过压缩权重和提高内存带宽，显著提升模型效率。

推理成本骤降75%！gpt-oss用新数据类型实现4倍推理速度，80GB显卡能跑1200亿参数大模型

量子位 ·

阿里通义千问3的下载量已超过1250万，成为全球最受欢迎的开源模型，衍生模型超过13万。其推理成本仅为DeepSeek R1的三分之一，吸引了多家芯片厂商和算力平台的接入。

阿里千问3下载量破千万！衍生模型数超13万稳居全球第一

量子位 ·

＜span class=“js_title_inner“＞LLM 推理经济学＜/span＞

＜span class=“js_title_inner“＞LLM 推理经济学＜/span＞

OneFlow深度学习框架 ·

本研究提出了一种测试时间模型合并（TTMM）方法，旨在解决混合专家模型因训练和推理成本高而只能使用少量专家的问题。TTMM显著增加了专家数量，并且测试时间比传统方法快100倍以上，为大规模测试提供了经济有效的解决方案。

Mixture of Local Experts: Achieving Essentially Free Test-Time Training through Model Merging

BriefGPT - AI 论文速递 ·

本研究提出了一种断裂采样方法，旨在通过提前终止推理来降低大型语言模型的推理成本，减少标记数量，同时保持准确性。实验结果表明，该方法在多个基准测试中表现优异，提高了推理效率和可扩展性。

Fragmented Chain-of-Thought Reasoning

BriefGPT - AI 论文速递 ·

本研究提出RT-cache，一种新颖的机器人轨迹记忆管道，旨在降低现代视觉-语言-动作模型的推理成本。通过存储成功轨迹并检索相关运动片段，RT-cache显著提高了任务完成速度和成功率。

RT-cache: An Efficient Robot Trajectory Retrieval System

BriefGPT - AI 论文速递 ·

推理经济如何最大化AI价值

推理经济如何最大化AI价值

NVIDIA Blog ·

Deep Infra正在为开发者构建AI推理云

Deep Infra正在为开发者构建AI推理云

The New Stack ·