土法炼钢兴趣小组的博客 ·

【编译器工程与 MLIR】操作、方言与 IR 的 C++ 表示

💡 原文中文，约9000字，阅读约需22分钟。

📝

内容提要

本文介绍了 MLIR 中的 IR 结构及其与 LLVM IR 的关键差异。MLIR 通过 Operation 进行遍历，每种操作都是独立类型，增强了类型安全性。文章详细阐述了 Operation、Value、Block 和 Region 的内存布局及其功能，并强调了 MLIR 的类型系统和属性设计。

🎯

关键要点

MLIR IR 与 LLVM IR 的设计有两个根本性差异：遍历从 Operation 层开始，操作定义即新类型。
在 MLIR 中，所有计算、控制流和数据移动都是通过 Operation 表示，没有独立的指令概念。
每种操作都是 Operation 的独立子类型，IR 基础设施通过 AbstractOperation 查找操作行为。
Operation 是 MLIR IR 的原子单元，包含源位置、结果类型、操作数、控制流后继、属性和区域等信息。
MLIR 提供类型安全的 Op 包装器，使用 CRTP 使得操作更安全和易于使用。
Value 是 SSA 值的句柄，表示由 Operation 或 Block 声明的值，具有轻量级的特性。
Block 是有序的 Operation 列表，包含参数化入口，控制流通过终结符指明去向。
Region 是包含有序 Block 列表的容器，控制副作用范围和值的作用域。
每个方言通过 Dialect 类注册其 Operation 和 Type，MLIRContext 管理所有 IR 对象的生命周期。
文章覆盖了 MLIR IR 的基础数据结构，下一章将讨论类型系统和属性的区别。

🔎

延伸解读

MLIR 与 LLVM IR 的设计差异

MLIR 在设计上与 LLVM IR 有显著不同，主要体现在操作的定义和遍历方式上。MLIR 通过 Operation 作为基本单元，消除了独立指令的概念，使得所有计算和控制流都通过 Operation 表示。这种设计提高了类型安全性，允许编译器在编译时进行更多的错误检查。

Operation 的内存布局

在 MLIR 中，Operation 是 IR 的原子单元，包含多个重要信息，如源位置、结果类型和操作数等。理解其内存布局对于编写高效的 Pass 至关重要。操作数的存储和使用链的管理使得数据流追踪变得更加清晰，开发者需关注这些细节以优化性能。

类型安全的 Op 包装器

MLIR 提供的类型安全 Op 包装器通过 CRTP 模式简化了操作的使用。开发者可以通过强类型接口安全地访问操作的属性和结果，避免了手动字符串比较带来的潜在错误。这种设计不仅提高了代码的可读性，也增强了编译器的类型检查能力。

❓

延伸问答

MLIR IR 与 LLVM IR 有哪些关键差异？

MLIR IR 的遍历从 Operation 层开始，没有独立的指令概念，所有操作都是通过 Operation 表示。此外，每种操作都是 Operation 的独立子类型，而 LLVM IR 中所有指令共用一个 Instruction 类。

什么是 MLIR 中的 Operation？

Operation 是 MLIR IR 的原子单元，包含源位置、结果类型、操作数、控制流后继、属性和区域等信息，是所有方言的 Op 实例。

MLIR 的 Value 是什么？

Value 是 MLIR 中 SSA 值的句柄，表示由 Operation 或 Block 声明的值，具有轻量级特性。

Block 在 MLIR 中的功能是什么？

Block 是一个有序的 Operation 列表，末尾必须有一个终结符，指明控制流去向，且可以包含参数化入口。

MLIR 中的 Region 是什么？

Region 是包含有序 Block 列表的容器，控制副作用范围和值的作用域，且每个 Operation 可以持有多个 Region。

如何在 MLIR 中注册一个方言？

每个方言通过继承 Dialect 类，在构造时注册该方言的 Operation 和 Type 集合，并通过 MLIRContext 管理其生命周期。

🏷️