土法炼钢兴趣小组的博客 ·

LR 与 LALR 解析：从理论到 yacc/bison

💡 原文中文，约22300字，阅读约需54分钟。

📝

内容提要

本文介绍了LR(k)解析的概念及其发展历程，重点讨论了LR(0)、SLR(1)、LR(1)和LALR(1)解析器的理论与实现。LR解析器通过自底向上的方法处理上下文无关文法，能够高效解析大多数编程语言。LALR(1)在LR(1)的精确性与LR(0)的紧凑性之间取得平衡，广泛应用于yacc和bison等工具。文章还探讨了GLR解析器处理二义性文法的能力，以及现代解析器如tree-sitter的增量解析技术。

🎯

关键要点

LR(k)解析的概念由Donald Knuth于1965年提出，能够高效解析大多数编程语言。
LR解析器通过自底向上的方法处理上下文无关文法，解析过程是确定性的、线性时间的。
LALR(1)在LR(1)的精确性与LR(0)的紧凑性之间取得平衡，广泛应用于yacc和bison等工具。
GLR解析器能够处理二义性文法，使用图结构栈来追踪所有可能的解析路径。
现代解析器如tree-sitter采用增量解析技术，能够在代码编辑时只重新解析修改影响的部分。

🔎

延伸解读

LR解析的优势与局限

LR解析器以其高效的自底向上解析能力，能够处理几乎所有编程语言的语法。然而，LR(1)解析表的庞大使其在实际应用中受到限制，尤其是在状态数过多时。LALR(1)通过合并状态，提供了更紧凑的解决方案，适用于大多数实际文法。

现代解析器的技术演变

随着编程语言和开发需求的变化，现代解析器如tree-sitter采用增量解析技术，能够在代码编辑时只重新解析受影响的部分。这种方法相比传统的LR解析器更为灵活，适合实时编辑环境，显示了解析技术的不断进步。

解析器的工程实践

在实际开发中，使用yacc和bison等工具生成解析器时，开发者需注意文法的优先级和结合性声明，以避免移进-归约和归约-归约冲突。此外，错误恢复策略的设计也至关重要，能够提高解析器的健壮性和用户体验。

❓

延伸问答

LR(k)解析的基本概念是什么？

LR(k)解析是一种自底向上的解析方法，能够高效解析大多数编程语言的上下文无关文法，解析过程是确定性的、线性时间的。

LALR(1)解析器与LR(1)解析器有什么区别？

LALR(1)解析器在LR(1)的精确性与LR(0)的紧凑性之间取得平衡，状态数远少于LR(1)，因此在实际应用中更为高效。

GLR解析器的主要优势是什么？

GLR解析器能够处理二义性文法，通过同时追踪所有可能的解析路径，适用于复杂的语言和自然语言处理。

yacc和bison的主要功能是什么？

yacc和bison是经典的解析器生成工具，支持LALR(1)和GLR解析，广泛用于编译器和语言处理工具的开发。

如何解决LALR(1)解析中的冲突？

LALR(1)解析中的冲突可以通过声明运算符的优先级和结合性来解决，例如使用%left和%right指令。

现代解析器如tree-sitter的特点是什么？

tree-sitter使用GLR算法处理文法二义性，并采用增量解析技术，只重新解析修改影响的部分，适用于代码编辑器。

🏷️