ARTHURCHIAO'S BLOG ·

直观解读 JuiceFS 的数据和元数据设计（三）：看山还是山（2024）

💡 原文中文，约9700字，阅读约需23分钟。

📝

内容提要

本文探讨了JuiceFS的数据和元数据设计，重点在于如何从对象存储和元数据恢复文件。通过扫描元数据引擎和对象存储，验证数据合法性，并介绍清理无效数据的工具和方法。最后，讨论了JuiceFS的文件大小限制及其不支持直接读取对象存储中的文件。

🎯

🔎

JuiceFS通过扫描元数据引擎和对象存储来恢复文件，首先获取文件的元数据信息，然后根据这些信息拼凑出文件的完整数据。这一过程强调了元数据在数据恢复中的重要性，用户在使用时需确保元数据的完整性，以避免数据丢失或恢复失败。

在JuiceFS中，判断对象存储中的数据是否合法至关重要。通过元数据引擎读取slice size和object key，可以识别无效数据并进行清理。这一机制不仅提高了存储效率，也减少了潜在的存储成本，用户应定期检查和维护数据的合法性。

JuiceFS支持的单个最大文件大小为128PiB，虽然理论上限更高，但实际限制在代码中。这一设计使得用户在处理大文件时需考虑到这一限制，尤其是在大数据应用场景中，合理规划文件大小和存储策略显得尤为重要。

❓

JuiceFS通过扫描元数据引擎获取文件信息，然后根据slice_id和block_id拼凑出对象存储中的object key，依次读取数据拼接成文件。

JuiceFS支持的单个最大文件大小为128PiB，理论上限更高但实际限制在代码中。

通过从元数据引擎读取slice size和object key，判断对象是否符合命名规范和大小是否为零，来判断数据是否合法。

JuiceFS提供了命令行工具juicefs gc，用于快速判断和清理无效数据。

因为JuiceFS写入对象存储的文件是按Chunk、Slice、Block切分的，缺乏文件信息元数据，无法恢复原文件。

JuiceFS引入了pending delete slices，允许后台异步删除，以优化大批量删除性能。

🏷️