阿里云云栖号

阿里云云栖号 -

数据湖存储的安全写入之道

数据湖的兴起,给数据存储带来了一轮新的革命。越来越多的公司选择将存储切换到云上对象存储。因为云上对象存储往往意味着大容量、低成本、易扩容。

数据湖的兴起给数据存储带来了新的革命,越来越多的公司选择将存储切换到云上对象存储。S3协议已成为对象存储的通用协议,但市面上的数据平台公司也会选择基于S3协议又兼顾Hadoop使用习惯的S3A Connector。S3AFileSystem在创建文件时会打开S3ABlockOutputStream,而S3ABlockOutputStream在处理write、flush等操作时会调用S3ADataBlock来执行。S3AFileSystem可以发现磁盘IO问题并抛出异常,但无法发现磁盘比特反转问题。阿里云EMR JindoSDK通过实现JindoOutputStream支持请求级别和文件块级别的校验,提供了更完善的错误检查和更优异的性能。数据湖存储的安全写入需要考虑内存、磁盘和网络的不可靠性,选择合适的校验算法,并全面考虑各种可能遇到的问题。

S3A Connector S3协议 存储 安全 对象存储 数据湖 磁盘IO问题

相关推荐 去reddit讨论

热榜 Top10

最近读过

  1. 图像恢复的高效扩散模型:残差位移 - 约读过
  2. 移植五周年 - 约读过
  3. bigbird长文本预训练模型介绍 - 约读过
  4. 多关系分类之不平衡预测适应 - 约读过
  5. 重新审视稀疏检索用于少样本实体链接 - 约读过
  6. 评估大型语言模型对代码可维护性的能力 - 约读过
  7. Time-LLM:大型语言模型的时间序列预测 - 约读过
  8. 每日一思 - 约读过
  9. pose-format:用于查看、增强和处理.pose 文件的库 - 约读过
  10. How to deploy your own Elixir Cross Referencer - 约读过
eolink
eolink
Dify.AI
Dify.AI
LigaAI
LigaAI
观测云
观测云

推荐或自荐