小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从IDC到云上GPU:基于 Amazon EKS 的大模型推理混合云弹性部署实践

本文介绍了基于Amazon EKS和NVIDIA NIM的混合云大模型推理架构,强调本地GPU优先和云上弹性扩展的策略。通过KEDA和Karpenter实现自动扩缩容,优化成本和性能,满足中国客户需求。该方案解决了延迟、数据本地化和成本问题,提供统一监控和最佳实践,帮助企业有效利用现有GPU资源。

从IDC到云上GPU:基于 Amazon EKS 的大模型推理混合云弹性部署实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-24T06:02:50Z
37GAMES 在 Aurora Serverless v2 高可用及成本优化上的实践

37GAMES 在 Amazon Aurora Serverless v2 的实践中,通过混合部署实现了高可用性和成本优化,故障转移时间约20秒,零数据丢失,成本节省超过40%。该方案适用于日常读流量少的场景,确保业务连续性并降低热备成本。

37GAMES 在 Aurora Serverless v2 高可用及成本优化上的实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-22T08:30:03Z
Claude默认思考强度被调低:用户重试暴涨80倍总成本不降反升

Anthropic将Claude的思考强度从高调调整至中等,虽然降低了单次成本,但复杂任务的错误率上升,导致用户重试次数增加,整体成本反而上升。用户体验与官方解释存在差距,用户感受到性能下降,而官方则强调响应用户反馈。这一变化反映了AI系统从能力最大化向成本优化的转变,用户需要主动调整使用策略以应对模型性能的变化。

Claude默认思考强度被调低:用户重试暴涨80倍总成本不降反升

极道
极道 · 2026-04-13T03:23:00Z

Claude Code的fork子agent通过共享缓存机制优化并行任务成本,确保99%以上的字节一致性,显著降低输入费用。使用Anthropic API的Prompt Cache机制,缓存命中可享受90%折扣,减少并行调用成本。设计强调字节级一致性,确保多个请求共享相同前缀,避免不必要费用。

子Agent省90%费用的Prompt Cache共享机制

Finisky Garden
Finisky Garden · 2026-04-05T12:46:42Z
SERHANT.的快速AI迭代手册

SERHANT.通过S.MPLE平台实现AI自动化,帮助900多名房地产代理节省时间。团队利用Vercel的AI SDK灵活应对AI环境变化,优化成本与效率,推动工作流向对话式AI代理转变。

SERHANT.的快速AI迭代手册

Vercel News
Vercel News · 2026-03-23T04:00:00Z
Claude Code 也能跑本地模型?CCR 多模型 智能路由,成本直降 90%

本文介绍了通过Claude Code Router(CCR)实现本地模型部署和多模型智能路由的方法,降低AI编程助手的使用成本。用户可通过CCR对接开源模型GLM5,实现零成本使用,并根据任务类型自动选择合适模型,优化资源利用和成本。合理配置后,月成本可降低90%以上,适合开发者寻找高性价比的AI解决方案。

Claude Code 也能跑本地模型?CCR 多模型 智能路由,成本直降 90%

探索云原生
探索云原生 · 2026-03-18T20:00:00Z
大规模视频合并与转码

本文介绍了如何利用AWS服务构建高效的视频处理系统,成功在短时间内完成2500部短剧的合并与转码。通过选择Lambda、Batch和Fargate的组合,优化了成本和性能,最终节省了约60%的费用。系统实现了高并发处理和实时监控,展示了云计算在媒体处理中的强大能力。

大规模视频合并与转码

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-03-13T02:59:47Z
超越资源配置:开发者的Databricks Lakebase自动扩展指南

Lakebase通过自动扩展实现零规模优势,系统在无活动时可暂停计算实例,费用降至零。新连接到来时,数据库迅速恢复,适合开发环境,月度计算成本可减少70%以上。自动扩展简化操作,提供可预测性能,提升云的可扩展性。

超越资源配置:开发者的Databricks Lakebase自动扩展指南

Databricks
Databricks · 2026-03-11T13:00:00Z

在AI时代,开发者面临大模型Token消耗问题。各大云厂商推出高性价比的Coding Plan,如字节跳动的火山引擎、阿里云的百炼和腾讯云的开发者计划,以帮助开发者优化Token使用,降低成本。

用 Coding Plan 完美优化大模型 Token 消耗(附超值 Coding Plan 套餐)

Clark's 尧望 Blog
Clark's 尧望 Blog · 2026-03-11T05:24:28Z
Jan Kristof Nidzwetzki:pg_plan_alternatives:利用eBPF追踪PostgreSQL的查询计划替代方案

pg_plan_alternatives是一个工具,利用eBPF追踪PostgreSQL优化器在查询规划阶段考虑的所有替代执行计划及其成本。该工具帮助用户理解优化器的决策过程,并调整系统参数,强调成本优化和查询计划结构的重要性。

Jan Kristof Nidzwetzki:pg_plan_alternatives:利用eBPF追踪PostgreSQL的查询计划替代方案

Planet PostgreSQL
Planet PostgreSQL · 2026-03-04T00:00:00Z
使用代理开发工具包构建生产就绪的AI代理

谷歌的代理开发工具包(ADK)简化了多代理系统的构建与部署,支持复杂任务协作,内置抽象帮助开发者专注于应用逻辑,便于与AI模型集成,优化成本与扩展性,适合生产环境。

使用代理开发工具包构建生产就绪的AI代理

KDnuggets
KDnuggets · 2026-02-19T15:00:18Z
ShareChat每秒处理十亿个特征,随后需要将成本降低10倍

ShareChat团队成功将实时特征存储的处理能力从每秒100万特征提升至10亿特征,并通过优化数据库架构、清理资源和迁移至ScyllaDB等方法,实现了成本降低10倍,同时保持系统性能。

ShareChat每秒处理十亿个特征,随后需要将成本降低10倍

The New Stack
The New Stack · 2026-02-12T14:00:08Z
低延迟实时语音识别(ASR)模型部署实践与选型

本文探讨了低延迟实时语音识别(ASR)模型的部署与选型,分析了实时ASR的业务需求和技术平台选择。重点比较了Whisper Large-v3 Turbo、Voxtral Mini和NVIDIA Parakeet三种模型的性能,推荐在生产环境中结合NVIDIA推理GPU与SageMaker实时端点,以优化资源利用率和降低成本。

低延迟实时语音识别(ASR)模型部署实践与选型

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-01-21T05:09:40Z
从X86到AWS Graviton4:合合信息图像识别应用的性能突破之旅

合合信息成功将图像识别应用从x86架构迁移至AWS Graviton ARM架构,实现性能提升3倍,实例数量减少61%,单实例处理能力提升491%,整体成本降至30.1%。此举显著优化了总拥有成本,促进了业务发展。

从X86到AWS Graviton4:合合信息图像识别应用的性能突破之旅

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-09T09:27:13Z
大规模语言模型工作负载的令牌高效数据准备指南

随着RAG架构和AI系统的扩展,数据序列化效率低下导致40%至70%的令牌浪费,增加API成本并降低模型性能。优化策略包括消除结构冗余、优化数值精度和应用层次扁平化。有效的数据准备和预处理能显著提升令牌效率,降低成本,增强AI部署的经济性。

大规模语言模型工作负载的令牌高效数据准备指南

The New Stack
The New Stack · 2025-12-06T19:00:34Z
AWS Lambda托管实例:无服务器灵活性与EC2成本模型的结合

AWS Lambda托管实例是一项新功能,允许在EC2实例上运行Lambda函数,以优化成本并支持稳定工作负载。AWS负责实例的设置和管理,减少冷启动,用户可通过Lambda控制台访问EC2定价模型,享受高达72%的折扣,适合多请求处理。

AWS Lambda托管实例:无服务器灵活性与EC2成本模型的结合

InfoQ
InfoQ · 2025-12-05T10:00:00Z
推出 AWS Lambda Managed Instances:兼具无服务器简便性和 EC2 灵活性

AWS推出Lambda Managed Instances,允许在EC2上运行Lambda函数,保留无服务器架构的优势。该功能满足客户对专用硬件和成本优化的需求,简化运维,支持多并发请求,降低计算成本,适合高流量应用和特定计算需求。

推出 AWS Lambda Managed Instances:兼具无服务器简便性和 EC2 灵活性

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-03T02:12:06Z
谷歌云推出Bigtable分层存储

谷歌云推出Bigtable分层存储预览,允许开发者在单实例中管理热数据和冷数据,优化成本。开发者可设置基于年龄的分层策略,自动在SSD和低频访问层之间迁移数据。此功能与Bigtable的自动扩展结合,提升资源利用率,支持分析和报告。分层存储节点的容量比普通SSD节点高540%。

谷歌云推出Bigtable分层存储

InfoQ
InfoQ · 2025-11-23T16:58:00Z
供应链分析金字塔模型,一张图带你看懂供应链管理

供应链管理的核心目标是优化成本、提升效率和最大化客户满意度。通过金字塔模型,指标分为三个层级:顶层评估战略结果,中层诊断问题,底层纠正操作。有效的数据分析可实现闭环管理,提升供应链健康度。

供应链分析金字塔模型,一张图带你看懂供应链管理

dotNET跨平台
dotNET跨平台 · 2025-11-23T00:16:10Z
出发前必读 – AWS re:Invent 2025 Well-Architected与云优化会议指南

本文介绍了2025年re:Invent大会的Well-Architected和云优化活动,涵盖AI驱动架构、Well-Architected框架演变、成本优化及FinOps等主题。会议将提供实践指导,帮助团队设计现代架构、优化成本并确保AI系统安全,内容形式多样,鼓励参与者互动。

出发前必读 – AWS re:Invent 2025 Well-Architected与云优化会议指南

AWS Architecture Blog
AWS Architecture Blog · 2025-11-14T18:11:43Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码