ARTHURCHIAO'S BLOG ·

直观解读 JuiceFS 的数据和元数据设计（三）：看山还是山（2024）

💡 原文中文，约9700字，阅读约需23分钟。

📝

内容提要

本文探讨了JuiceFS的数据和元数据设计，重点在于如何从对象存储和元数据恢复文件。通过扫描元数据引擎和对象存储，验证数据合法性，并介绍清理无效数据的工具和方法。最后，讨论了JuiceFS的文件大小限制及其不支持直接读取对象存储中的文件。

🎯

关键要点

本文探讨了JuiceFS的数据和元数据设计，重点在于如何从对象存储和元数据恢复文件。
JuiceFS文件被切分成Chunk、Slice、Block，元数据以inode、slice、block等信息组织。
恢复文件的过程包括扫描元数据引擎和对象存储，拼凑文件信息。
JuiceFS提供命令行选项查看文件的chunk/slice/block信息。
判断对象存储中的数据是否合法需要从元数据引擎读取slice size和object key。
不符合命名规范或大小为零的对象可以被清理。
引入pending delete slices优化大批量删除性能，允许后台异步删除。
JuiceFS支持的单个最大文件大小为128PiB，理论上限更高但实际限制在代码中。
JuiceFS写入对象存储的文件不能直接读取，缺乏文件信息元数据。
JuiceFS不会对文件进行合并，以避免读放大。

🏷️

继续阅读

Cloudflare R2 对象存储白嫖指南：10G存储+免流量费，打造免费图床
Cloudflare R2 对象存储免收出口流量费，解决了图床流量盗刷问题。兼容 S3 API，提供免费额度，适合个人用户。用户可通过缓存、速率限制和防盗...
设计解耦：亿级向量搜索
该查询引擎通过分离存储与计算降低成本，但引入了网络延迟。查询过程包括请求解析、近邻搜索、获取全精度向量和重新排序。引擎使用Rust编写，采用双线程池以避免...
Umair Shahid：将PostgreSQL高可用性视为分层设计
PostgreSQL的高可用性应采用分层设计，首先明确故障范围、恢复点目标（RPO）和恢复时间目标（RTO）。从单主节点开始，逐步引入离线备份、WAL归档...
劝说设计：十年后的反思
十年来，劝说设计已发展为行为设计，强调理解用户动机与环境。成功设计需关注内在需求，避免单纯依赖游戏机制。团队应采用系统思维，识别行为障碍，制定策略，以确保...
首个物理AI数据基座平台“无垠”落户浙江，专治机器人数据荒，家庭工业商业场景全覆盖
浙江推出首个物理AI数据基座平台“无垠”，旨在解决机器人数据短缺问题。该平台结合真实数据与虚拟仿真，提供高质量数据，支持具身智能的训练与应用，推动行业发展。
火狐浏览器将对UI界面进行大规模重新设计采用浮动式元素提供立体感
火狐浏览器正在进行名为Firefox Nova的UI界面大规模重新设计，采用丰富色彩和浮动元素，增强立体感。最终版本可能与早期模型有较大差异。

直观解读 JuiceFS 的数据和元数据设计（三）：看山还是山（2024）

内容提要

关键要点

标签

继续阅读