Magika 1.0:基于Rust和AI的更智能、更快速的文件检测

Magika 1.0:基于Rust和AI的更智能、更快速的文件检测

💡 原文英文,约700词,阅读约需3分钟。
📝

内容提要

谷歌发布了Magika 1.0,这是其开源文件类型检测系统的重大重写。新版本利用AI支持200多种文件类型,提升了速度和安全性。Magika 1.0能够识别多种文本文件类型,如Dockerfiles和Jupyter Notebooks,并能区分相似格式。谷歌工程师创建了超过3TB的数据集来训练AI模型,确保高达99%的精确度。新核心基于Rust,性能显著提升,能够在单核CPU上每秒处理数百个文件。

🎯

关键要点

  • 谷歌发布了Magika 1.0,这是其开源文件类型检测系统的重大重写。
  • 新版本利用AI支持超过200种文件类型,提升了速度和安全性。
  • Magika 1.0能够识别多种文本文件类型,如Dockerfiles和Jupyter Notebooks,并能区分相似格式。
  • 谷歌工程师创建了超过3TB的数据集来训练AI模型,确保高达99%的精确度。
  • 新核心基于Rust,性能显著提升,能够在单核CPU上每秒处理数百个文件。
  • Magika 1.0提供更高的细粒度,能够区分之前被归为一类的相似格式。
  • 使用Gemini创建高质量的合成训练集,以解决某些格式的代表性不足问题。
  • Magika在文本内容类型上表现优于现有方法,平均精确度和召回率达到约99%。
  • 新引擎使用Rust,能够在现代多核CPU上每秒处理数千个文件。
  • 工具在初次加载模型时会有一次性性能成本,但之后每个文件的推理时间约为5毫秒。
  • 用户可以通过命令行工具或Python包安装Magika。

延伸问答

Magika 1.0的主要功能是什么?

Magika 1.0是一个开源文件类型检测系统,支持超过200种文件类型,提升了速度和安全性。

Magika 1.0如何提高文件类型检测的精确度?

Magika 1.0通过使用超过3TB的数据集训练AI模型,确保高达99%的精确度。

Magika 1.0支持哪些文件类型?

Magika 1.0支持多种文本文件类型,包括Dockerfiles、Jupyter Notebooks、Swift和Kotlin等。

Magika 1.0的性能如何?

Magika 1.0在单核CPU上每秒可处理数百个文件,在现代多核CPU上可达每秒数千个文件。

Magika 1.0是如何处理大数据集的?

Magika 1.0使用SedPack数据集库流式处理和解压大数据集,避免I/O瓶颈。

如何安装Magika 1.0?

可以通过命令行工具执行curl命令或使用pipx安装Python包来安装Magika 1.0。

➡️

继续阅读