DEV Community: Greptime ·

研究论文分享——利用云对象存储进行高性能分析

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

本文讨论了利用云对象存储进行高性能分析的方法，通过实验发现Umbra与本地SSD缓存的云数据仓库性能相匹配，并提高资源弹性。介绍了AWS S3的存储成本、带宽和挑战，以及云存储的特点、最佳请求大小、加密和慢请求处理等观察和建议。最后，介绍了AnyBlob和云存储的集成策略。

🎯

关键要点

本文讨论了利用云对象存储进行高性能分析的方法。
Umbra与本地SSD缓存的云数据仓库性能相匹配，提高了资源弹性。
AWS S3的存储成本为每TB每月23美元，提供99.999999999%的可用性。
AWS S3面临带宽利用不足、网络CPU开销和缺乏多云支持等挑战。
云存储通常具有较低的延迟和高吞吐量，适合大规模数据读写操作。
小请求的首字节延迟是关键因素，大请求的延迟随文件大小线性增加。
在不同云服务提供商中，S3的延迟最高，表现出最小延迟现象。
最佳请求大小通常在8-16 MiB之间，32 MiB的下载时间较长，性价比低。
HTTPS加密需要更多CPU资源，但在某些情况下使用HTTPS是多余的。
慢请求的实验显示，超过600毫秒后，少于5%的对象未成功下载。
云存储数据请求模型表明，单个请求的带宽类似于HDD，需大量并发请求以充分利用网络带宽。
AnyBlob是一个通用对象存储库，支持多云服务的访问，性能优于现有C++库。
域名解析策略的优化可以显著减少延迟开销。
集成云存储的策略依赖于不同团队的工程实践。
检索重型查询的瓶颈在于网络带宽，而计算重型查询的性能随着核心数量的增加而提高。
在即将发布的GreptimeDB 0.7.0版本中，查询性能得到了显著优化。

🏷️

标签

AWS S3 AnyBlob Umbra 云云对象存储高性能高性能分析

➡️

继续阅读

【公共云三十问之九】先进公共云的发展蓝图包括哪些方面？
等能力，高效聚合数据、算力、算法等智能要素，可靠转化为可调用、可扩展、可复用的智能服务，并广泛、便捷地触达产业、民生、科技和全球发展等关键应用场景，充分发...
【公共云三十问之八】公共云如何打开全球发展的新空间？
预计未来十年，AI有望贡献全球GDP增长的7%—15%，智能经济将成为全球经济增长的重要引擎。而对许多发展中经济体而言，智能化基础设施建设面临资金、芯片、...
【公共云三十问之七】公共云如何助力科技创新？
无锡人工智能创新中心依托国产化弹性算力与全栈服务能力，以公共云CloudRobo具身智能平台为载体，搭建针对性面向工业场景的具身智能解决方案，打造AI+智...
Presentation: From Copy-Paste to Composition: Building Agents Like Real Software
Jake Mannix discusses moving AI agents past chaotic "1970s BASIC" arc...
Multi-Cluster databases on Kubernetes: Architecture and deployment
Introduction Running a database on Kubernetes is well understood. Running one...
I made a policy engine think it was in production
Kyverno is a Kubernetes-native policy engine that validates, mutates, and gen...