当前位置：首页 > news >正文

从零实现编译器：词法分析、语法解析与代码生成实战

news 2026/6/30 13:07:57

1. 项目概述：为什么我们要“手搓”一个编译器？

如果你是一名程序员，每天敲着if、for、int这些关键字，用着gcc或clang一键编译，有没有那么一瞬间好奇过，这行简单的文本代码，究竟是怎么变成机器能执行的指令的？编译器，这个听起来高深莫测的“黑盒”，其实是计算机科学皇冠上的明珠之一，它连接了人类可读的高级语言和机器执行的底层指令。很多人觉得编译器是只有大神才能碰的领域，但实际上，它的核心思想非常直观，甚至可以说，自己动手实现一个简化版的编译器，是理解编程语言本质、提升计算机系统认知的最佳路径之一。

我最初接触编译原理时，也被那些复杂的理论公式和龙书吓退过。直到后来，我决定抛开大部头，从一个最简单的“玩具语言”开始，亲手实现它的词法分析、语法分析和代码生成。这个过程让我恍然大悟：编译器不过是一个遵循固定规则、按部就班处理文本的程序。它没有魔法，有的只是清晰的逻辑和严谨的步骤。这个项目，就是带你一起，从零开始，构建一个能处理简单算术表达式（比如1 + 2 * (3 - 4)）并生成等价低级代码（比如栈式虚拟机指令）的微型编译器。我们不会涉及复杂的类型系统或优化，目标是打通从源代码到目标代码的完整链路，让你获得“哦，原来编译器就是这么回事”的顿悟感。

2. 编译器整体架构与核心流程拆解

在动手写代码之前，我们必须像建筑师一样，先画出蓝图。一个典型的编译器，无论大小，其核心流程都可以抽象为一条清晰的流水线。我们的微型编译器将严格遵循这个经典的三阶段模型，但会做最大程度的简化。

2.1 核心三阶段：源程序到目标代码的旅程

想象一下，你要把一篇中文文章翻译成英文。你不会拿起整篇文章就开始逐词替换，那样会一团糟。正确的做法是：先通读文章，识别出一个个独立的词语（词法分析）；然后分析句子的结构，哪个是主语，哪个是谓语，它们之间是什么关系（语法分析）；最后，根据英文的语法规则，把分析好的句子结构重新组织成地道的英文句子（代码生成）。编译器的工作流程与此惊人地相似。

词法分析：这是编译器的“眼睛”。它的任务是把源代码这个长长的字符串，切割成一个个有意义的“单词”，在编译原理中称为“词法单元”或“Token”。例如，对于字符串“position = initial + rate * 60”，词法分析器会识别出：标识符position，赋值符号=，标识符initial，加号+，标识符rate，乘号*，数字60。它会忽略空格、换行这些无关紧要的空白字符。这一步的关键是定义好什么算一个“单词”，以及每种“单词”的类型。
语法分析：这是编译器的“大脑”。它接收词法分析器产出的一串Token，然后检查这串Token是否符合我们预先定义好的语法规则。这些规则定义了语言的结构，比如“一个赋值语句应该是一个标识符，后面跟着等号，再后面跟着一个表达式”。语法分析器会构建出一棵“语法树”，这棵树清晰地展示了代码的层次结构。例如，对于表达式1 + 2 * 3，正确的语法树应该把2 * 3作为一个整体，再与1相加，这反映了乘法的优先级高于加法。这一步的核心是定义语法规则（通常用上下文无关文法）和实现一个能根据规则构建树的解析器。
代码生成：这是编译器的“手”。它遍历语法分析器生成的语法树，根据树的节点类型和结构，生成等价的目标代码。我们的目标不是真实的x86或ARM汇编，那样太复杂。为了保持项目的纯粹性和可理解性，我们将生成一种“栈式虚拟机”的指令。这种虚拟机模拟一个操作数栈，指令如PUSH 1（将数字1压入栈）、ADD（弹出栈顶两个元素，相加后结果压回栈顶）等。生成这样的指令序列，已经完整地体现了从高级结构到低级操作转换的核心思想。

注意：完整的工业级编译器在语法分析和代码生成之间，通常还会有“语义分析”（检查类型是否匹配等）和“中间代码生成与优化”等阶段。但对于我们的教学性项目，将语义检查的简单逻辑融入语法分析或代码生成阶段，并跳过优化，是保持项目简洁、主线清晰的关键策略。

2.2 技术选型：为什么用Python？

你可能会问，C语言不是更贴近系统吗？Java不是更严谨吗？对于这个项目，我强烈推荐使用Python。原因如下：

快速原型：Python语法简洁，能让我们把精力集中在算法和逻辑本身，而不是内存管理、指针等底层细节上。我们可以用列表轻松模拟栈，用字典实现符号表，用递归下降法优雅地实现语法分析。
表达力强：Python的字符串处理、数据结构操作非常方便，非常适合实现词法分析中的正则匹配和语法分析中的树形结构构建。
零环境负担：几乎任何系统都自带或可轻松安装Python，避免了复杂的编译工具链配置，让我们能专注于编译器本身。

当然，用C、Go、JavaScript等语言实现也完全可行，原理是相通的。选择Python，是为了最大限度地降低实现门槛，让“构建编译器”这个目标变得触手可及。

3. 第一阶段实战：实现词法分析器

词法分析器，也叫扫描器，是编译器流水线的第一个环节。它的输入是字符串，输出是Token流。我们首先需要定义我们的“微型语言”有哪些词汇。

3.1 定义Token类型

我们的语言目前只支持整数、基本的算术运算符和括号。因此，我们可以定义如下Token类型：

INTEGER: 整数，如1,42,100。
PLUS: 加号+。
MINUS: 减号-。
MUL: 乘号*。
DIV: 除号/。
LPAREN: 左括号(。
RPAREN: 右括号)。
EOF: 表示文件结束，这是一个特殊的Token，用于告知语法分析器输入已耗尽。

我们可以用一个简单的类或命名元组来表示一个Token，它至少包含两个信息：类型（type）和值（value）。对于运算符，其值就是符号本身（如‘+’）；对于整数，其值就是转换后的整型数字（如42）。

3.2 构建Lexer类

我们将创建一个Lexer类，它内部维护着输入字符串和当前字符的索引位置。

class Token: def __init__(self, type, value): self.type = type self.value = value def __repr__(self): return f‘Token({self.type}, {repr(self.value)})’ class Lexer: def __init__(self, text): self.text = text # 源代码字符串 self.pos = 0 # 当前字符索引 self.current_char = self.text[self.pos] if self.text else None def error(self): raise Exception(‘Invalid character’) def advance(self): """移动pos指针，获取下一个字符。""" self.pos += 1 if self.pos > len(self.text) - 1: self.current_char = None # 输入结束 else: self.current_char = self.text[self.pos] def skip_whitespace(self): """跳过所有空白字符。""" while self.current_char is not None and self.current_char.isspace(): self.advance() def integer(self): """读取一个多位整数。""" result = ‘’ while self.current_char is not None and self.current_char.isdigit(): result += self.current_char self.advance() return int(result) def get_next_token(self): """词法分析器的核心方法：获取下一个Token。""" while self.current_char is not None: if self.current_char.isspace(): self.skip_whitespace() continue if self.current_char.isdigit(): return Token(‘INTEGER’, self.integer()) if self.current_char == ‘+’: self.advance() return Token(‘PLUS’, ‘+’) if self.current_char == ‘-’: self.advance() return Token(‘MINUS’, ‘-’) if self.current_char == ‘*’: self.advance() return Token(‘MUL’, ‘*’) if self.current_char == ‘/’: self.advance() return Token(‘DIV’, ‘/’) if self.current_char == ‘(’: self.advance() return Token(‘LPAREN’, ‘(’) if self.current_char == ‘)’: self.advance() return Token(‘RPAREN’, ‘)’) self.error() # 遇到无法识别的字符 return Token(‘EOF’, None)

实操心得：在integer方法中，我们通过循环拼接字符数字，最后一次性转换成int。这里有个细节：如果数字非常大，超出了Python整型的范围怎么办？在真正的编译器中，词法分析器通常只负责识别数字的字面形式（字符串），将其作为“数字字面值”Token的值传递下去，具体的数值转换和范围检查可能留到后续的语义分析阶段。我们的简化实现直接转换，对于教学目的足够了。

4. 第二阶段实战：实现语法分析器

语法分析器，也叫解析器，它接收Token流，验证其结构是否符合语法，并生成一颗抽象语法树。我们将采用“递归下降”的方法来实现，这是最直观、最适合手写解析器的方法。

4.1 定义语法规则与AST节点

首先，我们需要用“产生式”来定义我们表达式的语法。我们采用经典的运算符优先级处理方式：

加减法优先级最低，且左结合。
乘除法优先级较高，且左结合。
括号优先级最高，可以改变默认优先级。

用产生式可以这样描述（expr是表达式的起始符号）：

expr : term ((PLUS | MINUS) term)* term : factor ((MUL | DIV) factor)* factor : INTEGER | LPAREN expr RPAREN

解释一下：一个表达式（expr）由一个term开始，后面可以跟零个或多个（加减号 + term）的组合。一个term由一个factor开始，后面可以跟零个或多个（乘除号 + factor）的组合。一个factor可以是一个整数，或者一个括号括起来的完整表达式。

接下来，定义AST节点。我们至少需要两种节点：二元运算符节点（BinOp）和数字节点（Num）。

class AST: pass class BinOp(AST): def __init__(self, left, op, right): self.left = left self.op = op # 一个Token对象，如Token(‘PLUS’, ‘+’) self.right = right class Num(AST): def __init__(self, token): self.token = token self.value = token.value

4.2 实现递归下降解析器

我们创建一个Parser类，它内部持有Lexer实例，并有一个current_token属性指向当前正在处理的Token。

class Parser: def __init__(self, lexer): self.lexer = lexer self.current_token = self.lexer.get_next_token() def error(self): raise Exception(‘Invalid syntax’) def eat(self, token_type): """“消耗”当前Token，如果类型匹配则获取下一个Token。""" if self.current_token.type == token_type: self.current_token = self.lexer.get_next_token() else: self.error() def factor(self): """解析因子：整数或括号表达式。""" token = self.current_token if token.type == ‘INTEGER’: self.eat(‘INTEGER’) return Num(token) elif token.type == ‘LPAREN’: self.eat(‘LPAREN’) node = self.expr() # 递归解析括号内的表达式 self.eat(‘RPAREN’) return node else: self.error() def term(self): """解析项：因子 (*/因子)* """ node = self.factor() while self.current_token.type in (‘MUL’, ‘DIV’): token = self.current_token if token.type == ‘MUL’: self.eat(‘MUL’) elif token.type == ‘DIV’: self.eat(‘DIV’) node = BinOp(left=node, op=token, right=self.factor()) return node def expr(self): """解析表达式：项 (+/- 项)* """ node = self.term() while self.current_token.type in (‘PLUS’, ‘MINUS’): token = self.current_token if token.type == ‘PLUS’: self.eat(‘PLUS’) elif token.type == ‘MINUS’: self.eat(‘MINUS’) node = BinOp(left=node, op=token, right=self.term()) return node def parse(self): """解析的入口点。""" return self.expr()

核心逻辑解读：递归下降的精髓在于，每个语法规则（expr,term,factor）对应一个函数。函数内部按照产生式的右部进行解析。factor函数处理最基本的单元（数字或括号），term函数处理乘除法（它会先调用factor获取左操作数，然后循环处理连续的乘除号），expr函数处理加减法（它会先调用term获取左操作数，然后循环处理连续的加减号）。这种结构天然地处理了运算符的优先级和结合性。

注意事项：eat方法是解析器的“驱动器”。它严格检查当前Token的类型是否符合预期，符合则“吃掉”它并前进，不符合则报语法错误。这是保证语法正确性的关键。递归下降法非常直观，但当语法存在左递归时（如A -> A a），会导致无限递归，需要先对文法进行改造。我们的文法通过expr: term ((PLUS|MINUS) term)*这种形式避免了左递归。

5. 第三阶段实战：实现代码生成器

现在，我们有一颗结构清晰的AST。代码生成器的任务就是遍历这棵树，为每个节点生成相应的指令。我们设计一个简单的栈式虚拟机，它的指令集包括：

PUSH n: 将整数n压入栈顶。
ADD,SUB,MUL,DIV: 弹出栈顶两个元素，执行相应运算，将结果压回栈顶。

5.1 设计栈式虚拟机指令

我们可以用一个列表来代表指令序列，每条指令本身可以用一个元组表示，例如(‘PUSH’, 5)或(‘ADD’,)。

5.2 实现AST解释器/代码生成器

我们将创建一个Interpreter类，它通过一个后序遍历AST的方式来生成指令。后序遍历意味着先处理子节点，再处理父节点，这正好符合栈式运算的顺序：先计算操作数（压入栈），再执行操作。

class Interpreter: def __init__(self, parser): self.parser = parser self.instructions = [] # 存储生成的指令 def visit(self, node): """访问AST节点的分发方法。""" method_name = ‘visit_’ + type(node).__name__ visitor = getattr(self, method_name, self.generic_visit) return visitor(node) def generic_visit(self, node): raise Exception(f‘No visit_{type(node).__name__} method’) def visit_Num(self, node): # 对于数字节点，生成PUSH指令 self.instructions.append((‘PUSH’, node.value)) def visit_BinOp(self, node): # 对于二元操作节点，先访问左子树，再访问右子树，最后生成操作指令 self.visit(node.left) self.visit(node.right) op_type = node.op.type if op_type == ‘PLUS’: self.instructions.append((‘ADD’,)) elif op_type == ‘MINUS’: self.instructions.append((‘SUB’,)) elif op_type == ‘MUL’: self.instructions.append((‘MUL’,)) elif op_type == ‘DIV’: self.instructions.append((‘DIV’,)) else: raise Exception(‘Unsupported operator’) def generate_code(self): """代码生成的入口点。""" ast = self.parser.parse() self.visit(ast) return self.instructions

代码生成逻辑：visit_Num方法很简单，遇到一个数字5，就生成(‘PUSH’, 5)。visit_BinOp方法是关键：对于表达式左 op 右，它先递归生成左子树的指令（这会导致左操作数的值被计算并压入栈），再递归生成右子树的指令（右操作数入栈），此时栈顶两个元素就是左右操作数，最后生成一条对应的运算指令（如ADD），该指令会弹出这两个数，计算后将结果压栈。这个过程完美地利用了栈的“后进先出”特性。

5.3 实现一个简单的虚拟机执行器

生成了指令序列，我们还需要一个执行器来运行它，验证结果。

class StackVM: def __init__(self): self.stack = [] def run(self, instructions): for instr in instructions: op = instr[0] if op == ‘PUSH’: self.stack.append(instr[1]) elif op == ‘ADD’: b = self.stack.pop() a = self.stack.pop() self.stack.append(a + b) elif op == ‘SUB’: b = self.stack.pop() a = self.stack.pop() self.stack.append(a - b) elif op == ‘MUL’: b = self.stack.pop() a = self.stack.pop() self.stack.append(a * b) elif op == ‘DIV’: b = self.stack.pop() a = self.stack.pop() self.stack.append(a // b) # 整数除法 else: raise Exception(‘Unknown instruction’) if len(self.stack) == 1: return self.stack[0] else: raise Exception(‘Execution error’)

6. 集成测试与问题排查

现在，让我们把所有的部件组装起来，形成一个完整的编译-执行流程。

def main(): while True: try: text = input(‘calc> ‘) except EOFError: break if not text: continue lexer = Lexer(text) parser = Parser(lexer) interpreter = Interpreter(parser) code = interpreter.generate_code() print(‘Generated Code:’, code) vm = StackVM() result = vm.run(code) print(‘Result:’, result) if __name__ == ‘__main__’: main()

运行这个程序，输入3 + 5 * (10 - 4) / 2，你会看到类似以下的输出：

calc> 3 + 5 * (10 - 4) / 2 Generated Code: [(‘PUSH’, 3), (‘PUSH’, 5), (‘PUSH’, 10), (‘PUSH’, 4), (‘SUB’,), (‘MUL’,), (‘PUSH’, 2), (‘DIV’,), (‘ADD’,)] Result: 18

生成的指令序列清晰地反映了运算顺序：先计算10-4，然后5*6，然后30/2，最后3+15。结果是正确的18。

6.1 常见问题与调试技巧

在实现过程中，你几乎一定会遇到各种问题。下面是一些典型的坑和排查思路：

词法分析器无法识别多位数：症状是输入12被识别为两个独立的INTEGER: 1和INTEGER: 2。检查integer()方法中的循环条件，确保它在遇到非数字字符时才停止。一个常见的错误是advance()调用时机不对，导致指针移动过头或不足。
语法分析器报告“Invalid syntax”：这是最常见的错误。首先，在error()方法中打印出当前current_token的信息和位置，这能帮你快速定位到源代码中出错的地方。其次，仔细核对你的语法规则（产生式）和递归下降函数是否一一对应。例如，expr函数里是否正确地调用了term？term的循环条件是否正确？
运算符优先级错误：症状是1 + 2 * 3被计算成9而不是7。这几乎肯定是语法规则定义错误。确保你的文法层级是expr -> term -> factor，并且乘除法的解析（term）在加减法（expr）的内部被调用。递归下降解析时，函数调用链expr() -> term() -> factor()的嵌套关系决定了优先级。
括号不起作用：症状是(1+2)*3被计算成1+2*3=7。检查factor()函数，当遇到LPAREN时，是否正确地递归调用了expr()来解析括号内的整个表达式，并在之后“吃掉”了RPAREN。一个常见的错误是递归调用后忘记消耗右括号。
代码生成顺序错误导致计算结果不对：对比你生成的指令序列和手动推导的序列。对于表达式a - b，你的指令顺序应该是PUSH a,PUSH b,SUB。如果顺序反了，变成PUSH b,PUSH a,SUB，结果就是b - a。在visit_BinOp中，务必保证self.visit(node.left)在self.visit(node.right)之前。

调试建议：在开发每个阶段（Lexer, Parser, Interpreter）时，都编写独立的单元测试。例如，给Lexer输入“2 + 3”，手动检查它输出的Token流是否为[INT:2, PLUS:+, INT:3, EOF]。给Parser输入这个Token流，检查生成的AST结构是否正确。这种分阶段验证能极大降低整体调试的复杂度。

7. 项目扩展与深入思考

完成这个基础版本后，你已经掌握了编译器的核心骨架。但这个玩具编译器距离实用还差得很远。以下是一些可以尝试的扩展方向，每一个都能让你对编译技术的理解更深一层：

添加变量赋值与读取：这需要引入“符号表”的概念。在词法分析阶段，需要增加ID（标识符）类型的Token。在语法分析阶段，需要增加赋值语句（如x = 1 + 2）和表达式中的变量引用。在代码生成阶段，需要维护一个变量名到内存地址（或栈位置）的映射。生成PUSH指令时，如果是变量，就需要生成LOAD [地址]这样的指令；遇到赋值，则需要生成STORE [地址]指令。
支持更复杂的数据类型：从整数扩展到浮点数、布尔值、字符串。这涉及到词法分析器如何区分不同的字面量（例如，3.14是FLOAT，“hello”是STRING），以及语法和代码生成阶段如何处理不同类型的运算（整数加法和浮点数加法是不同的机器指令）。
实现控制流语句：如if-else和while循环。这会给代码生成带来质的变化，因为需要生成“跳转”指令。你需要引入标签（Label）的概念。例如，对于if (cond) { A } else { B }，生成的代码逻辑是：计算条件cond的代码 -> 条件跳转指令（如果为假则跳到else标签）-> 语句块A的代码 -> 无条件跳转指令（跳到if语句结束后的标签）-> else标签 -> 语句块B的代码 -> 结束标签。
生成真正的汇编代码：将我们的栈式虚拟机指令替换为x86或RISC-V等真实架构的汇编代码。你需要学习目标平台的基本指令集（如数据移动、算术运算、跳转）、调用约定和汇编器语法。这会将你对“代码生成”的理解从抽象虚拟机拉到具体的硬件层面。
实现一个简单的优化：例如，常量折叠。在语法分析或代码生成阶段，如果发现表达式3 + 5，可以直接计算出8，并生成PUSH 8，而不是PUSH 3, PUSH 5, ADD。再比如，消除公共子表达式。这些优化能让你初步窥见工业级编译器复杂而精妙的设计。

亲手实现一遍，哪怕是最简单的版本，你对编程语言的理解也会完全不同。下次当你再使用if、while或者调用一个函数时，你脑海里可能会不自觉地浮现出它背后可能的AST结构和生成的低级指令。这种从上层应用到底层系统的贯通感，正是这个项目带来的最大收获。编译器不是魔法，它是一套精妙、系统且可以被理解和构建的工程艺术。从这个简单的起点出发，你已经拿到了进入这扇大门的钥匙。

查看全文

http://www.jsqmd.com/news/1096084/