InfoQ ·

Magika 1.0：基于Rust和AI的更智能、更快速的文件检测

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

谷歌发布了Magika 1.0，这是其开源文件类型检测系统的重大重写。新版本利用AI支持200多种文件类型，提升了速度和安全性。Magika 1.0能够识别多种文本文件类型，如Dockerfiles和Jupyter Notebooks，并能区分相似格式。谷歌工程师创建了超过3TB的数据集来训练AI模型，确保高达99%的精确度。新核心基于Rust，性能显著提升，能够在单核CPU上每秒处理数百个文件。

🎯

关键要点

谷歌发布了Magika 1.0，这是其开源文件类型检测系统的重大重写。
新版本利用AI支持超过200种文件类型，提升了速度和安全性。
Magika 1.0能够识别多种文本文件类型，如Dockerfiles和Jupyter Notebooks，并能区分相似格式。
谷歌工程师创建了超过3TB的数据集来训练AI模型，确保高达99%的精确度。
新核心基于Rust，性能显著提升，能够在单核CPU上每秒处理数百个文件。
Magika 1.0提供更高的细粒度，能够区分之前被归为一类的相似格式。
使用Gemini创建高质量的合成训练集，以解决某些格式的代表性不足问题。
Magika在文本内容类型上表现优于现有方法，平均精确度和召回率达到约99%。
新引擎使用Rust，能够在现代多核CPU上每秒处理数千个文件。
工具在初次加载模型时会有一次性性能成本，但之后每个文件的推理时间约为5毫秒。
用户可以通过命令行工具或Python包安装Magika。

🔎

延伸解读

文件类型检测的广泛应用

Magika 1.0 支持超过 200 种文件类型，尤其是一些专业的文本文件格式，如 Dockerfiles 和 Jupyter Notebooks。这使得它在数据科学和软件开发领域的应用潜力大大增强，用户可以更准确地识别和处理各种文件类型。

性能与安全性的提升

新版本基于 Rust 构建，显著提升了性能和内存安全性。Magika 1.0 在单核 CPU 上每秒可处理数百个文件，而在现代多核 CPU 上则可达到每秒数千个文件。这种高效的处理能力使得用户在文件检测时能够获得更快的反馈。

训练数据集的重要性

谷歌为训练 AI 模型创建了超过 3TB 的数据集，确保了高达 99% 的精确度。通过使用 Gemini 创建合成训练集，解决了某些格式代表性不足的问题。这表明，数据集的质量和多样性对 AI 模型的性能至关重要。

❓

延伸问答

Magika 1.0的主要功能是什么？

Magika 1.0是一个开源文件类型检测系统，支持超过200种文件类型，提升了速度和安全性。

Magika 1.0如何提高文件类型检测的精确度？

Magika 1.0通过使用超过3TB的数据集训练AI模型，确保高达99%的精确度。

Magika 1.0支持哪些文件类型？

Magika 1.0支持多种文本文件类型，包括Dockerfiles、Jupyter Notebooks、Swift和Kotlin等。

Magika 1.0的性能如何？

Magika 1.0在单核CPU上每秒可处理数百个文件，在现代多核CPU上可达每秒数千个文件。

Magika 1.0是如何处理大数据集的？

Magika 1.0使用SedPack数据集库流式处理和解压大数据集，避免I/O瓶颈。

如何安装Magika 1.0？

可以通过命令行工具执行curl命令或使用pipx安装Python包来安装Magika 1.0。

🏷️