小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
国产通用大模型第一梯队,来新人了?!

云知声推出的新一代大模型U2,采用“智能密度×Token价值”理念,旨在降低Token消耗并提升智能效率。U2在多项评测中表现优异,推理成本显著低于同类模型,验证了智能密度的可行性,标志着AI行业竞争格局的转变。

国产通用大模型第一梯队,来新人了?!

量子位
量子位 · 2026-06-09T02:55:08Z
跑大模型,最贵的不是 GPU,是这个东西

Llama-70B模型在处理128K token请求时,KV Cache占用429GB显存,成为推理成本的主要因素。通过TurboQuant、PD拆分和LMCache等技术,可以将长上下文推理成本降低4到40倍。这些技术的应用将显著提升效率,改善产品体验,推动LLM的广泛使用。

跑大模型,最贵的不是 GPU,是这个东西

迷途小书童
迷途小书童 · 2026-06-01T13:45:20Z
小米:请叫我 Token 价格屠夫

小米宣布其AI大模型MiMo-V2.5系列永久降价,最高降幅达99%。此举旨在吸引开发者和高频应用,降低推理成本。降价策略依赖于缓存命中率,适合高重复内容场景。小米的工程能力支撑了这一价格战,可能对市场造成冲击,迫使其他厂商调整策略。未来,模型质量和服务稳定性将成为竞争关键。

小米:请叫我 Token 价格屠夫

爱范儿
爱范儿 · 2026-05-27T09:54:47Z
开源AI性价比之王DeepSeek v4发布:1.6T参数仅售3.48美元!

DeepSeek v4发布了Pro和Flash两个版本,分别拥有1.6T和284B参数,价格低至3.48美元和0.28美元。Pro版适合复杂任务,Flash版则注重低成本高吞吐。DeepSeek的开源程度和性能接近顶级闭源模型,预计新硬件上市后推理成本将进一步降低,推动开源AI的发展。

开源AI性价比之王DeepSeek v4发布:1.6T参数仅售3.48美元!

极道
极道 · 2026-04-24T06:19:00Z
大语言模型推理三难问题:吞吐量、延迟与成本

本文探讨了大语言模型(LLM)推理中的成本、延迟和吞吐量之间的权衡,强调了硬件选择、模型架构和量化等因素对优化的影响。理解成本的多维特性和优化策略对于有效管理基础设施预算至关重要。通过合理的工程决策和基准测试,可以在吞吐量和延迟之间找到最佳平衡,以满足不同工作负载的需求。

大语言模型推理三难问题:吞吐量、延迟与成本

The DigitalOcean Blog
The DigitalOcean Blog · 2026-04-22T15:56:14Z
将 Florence-2 部署到 Inferentia2 的实战指南

本文介绍了如何将Florence-2模型部署到Inferentia2,采用Stage-wise编译、Bucket策略和BF16优化,实现了252ms的延迟和8.18 QPS的吞吐量,推理成本比GPU降低38%。Florence-2具备零样本能力,适用于电商和仓储等场景,显著降低了物品分类的运维成本和复杂度。

将 Florence-2 部署到 Inferentia2 的实战指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-03T09:55:46Z
认识KARL:一个更快的企业知识代理,基于定制的强化学习

KARL模型通过强化学习显著降低了推理成本和延迟,同时提升了质量,适用于Databricks客户,帮助他们创建定制的RL模型,尤其在处理复杂问题时表现优异。

认识KARL:一个更快的企业知识代理,基于定制的强化学习

Databricks
Databricks · 2026-03-05T14:40:00Z
领先的推理提供商通过NVIDIA Blackwell上的开源模型将AI成本降低至10倍

Baseten、DeepInfra、Fireworks AI和Together AI通过NVIDIA Blackwell平台优化推理堆栈,显著降低各行业的每个token成本。MIT研究表明,基础设施和算法效率每年可将推理成本降低10倍。医疗、游戏和客户服务等领域的公司利用开源模型和NVIDIA Blackwell实现了成本节约和响应时间提升。

领先的推理提供商通过NVIDIA Blackwell上的开源模型将AI成本降低至10倍

NVIDIA Blog
NVIDIA Blog · 2026-02-12T16:00:46Z

曦望发布了新一代推理GPU芯片启望S3,专注于推理效率和成本,显存容量提升4倍,推理成本下降约90%。同时推出寰望SC3超节点方案,优化推理能力和系统稳定性,推动推理云平台发展,强调降低推理成本的重要性。

曦望发布推理GPU S3:All-in推理的国产GPU,开始算单位Token成本

量子位
量子位 · 2026-01-27T14:41:21Z
如何优化机器学习推理成本和性能

构建大型语言模型(LLM)应用时,推理成本和响应时间可能超出预期。低批量推理的瓶颈主要在于内存带宽而非计算能力。文章讨论了推理成本、性能瓶颈及优化策略,强调语义缓存和Redis在降低成本和提升响应速度中的关键作用。

如何优化机器学习推理成本和性能

Redis Blog
Redis Blog · 2026-01-27T00:00:00Z

浪潮信息推出元脑HC1000超扩展AI服务器,将推理成本降低至每百万token 1元,以支持AI产业化。刘军表示,未来token成本需显著降低,以应对快速增长的需求,推动AI普惠落地。

推理成本打到1元/每百万token,浪潮信息撬动Agent规模化的“最后一公里”

量子位
量子位 · 2025-12-26T06:47:48Z
浪潮信息元脑HC1000实现推理成本首次击破1元/每百万token

浪潮信息推出元脑HC1000超扩展AI服务器,推理成本首次降至1元/百万token,助力智能体产业化。火山引擎数据显示,字节跳动豆包大模型日均token使用量突破50万亿,谷歌月均达1300万亿。新架构提升推理性能1.75倍,资源利用率最大化。

浪潮信息元脑HC1000实现推理成本首次击破1元/每百万token

全球TMT-美通国际
全球TMT-美通国际 · 2025-12-25T02:19:34Z
从KV Cache到Prompt Cache的应用

本文探讨了大模型推理中的KV Cache优化,分析了显存瓶颈及其对推理成本的影响。通过比较DeepSeek MLA和vLLM等技术架构,提出了Prompt Cache的应用,以降低推理成本并提升效率。

从KV Cache到Prompt Cache的应用

Shadow Walker 松烟阁
Shadow Walker 松烟阁 · 2025-11-30T12:40:41Z
DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

DeepSeek-AI 发布了新模型 DeepSeek-V3.2-Exp,采用稀疏注意力机制(DSA),显著提升长文本任务的训练与推理效率。DSA 通过闪电索引器和细粒度令牌选择,降低计算复杂度,保持模型性能。模型训练分为密集预热和稀疏训练阶段,使用大量上下文数据。测试结果显示,V3.2-Exp 在多项任务中表现稳定,推理成本显著降低,未来将进行大规模真实场景测试。

DeepSeek-V3.2-Exp:用稀疏注意力实现更高效的长上下文推理

我爱自然语言处理
我爱自然语言处理 · 2025-09-30T01:01:43Z

Flash Attention的作者Tri Dao在播客中预测,未来三年内英伟达将失去GPU市场主导地位,AI硬件生态将变得多元化。他指出推理成本已下降100倍,未来有望再降10倍,技术进步将推动AI硬件发展。

Flash Attention作者最新播客:英伟达GPU统治三年内将终结

量子位
量子位 · 2025-09-29T06:03:47Z

OpenAI的gpt-oss模型采用MXFP4数据类型,推理成本降低75%,速度提升4倍。80GB显卡可运行1200亿参数模型,16GB显卡可运行200亿参数。MXFP4通过压缩权重和提高内存带宽,显著提升模型效率。

推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型

量子位
量子位 · 2025-08-11T07:13:35Z

阿里通义千问3的下载量已超过1250万,成为全球最受欢迎的开源模型,衍生模型超过13万。其推理成本仅为DeepSeek R1的三分之一,吸引了多家芯片厂商和算力平台的接入。

阿里千问3下载量破千万!衍生模型数超13万稳居全球第一

量子位
量子位 · 2025-06-09T04:43:40Z
<span class=“js_title_inner“>LLM 推理经济学</span>

本文探讨了大模型推理的经济学,分析了推理成本的来源及其对盈利能力的影响。以LLaMA 3.3为例,讨论了模型参数、GPU需求及其对推理效率的影响。推理过程分为计算受限和内存受限两个阶段,强调了批处理在降低单位成本中的重要性。随着输入长度和批量规模的增加,推理成本与效率的关系变得复杂,理解这些因素对AI发展的经济影响至关重要。

<span class=“js_title_inner“>LLM 推理经济学</span>

OneFlow深度学习框架
OneFlow深度学习框架 · 2025-05-25T08:05:34Z

本研究提出了一种测试时间模型合并(TTMM)方法,旨在解决混合专家模型因训练和推理成本高而只能使用少量专家的问题。TTMM显著增加了专家数量,并且测试时间比传统方法快100倍以上,为大规模测试提供了经济有效的解决方案。

Mixture of Local Experts: Achieving Essentially Free Test-Time Training through Model Merging

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了一种断裂采样方法,旨在通过提前终止推理来降低大型语言模型的推理成本,减少标记数量,同时保持准确性。实验结果表明,该方法在多个基准测试中表现优异,提高了推理效率和可扩展性。

Fragmented Chain-of-Thought Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码