当前位置：首页 > news >正文

LLM数学推理工程化：四层防御体系实现可验证解题

news 2026/7/2 19:28:46

1. 这不是“让AI做奥数题”——而是重新定义数学推理的工程实践

OpenAI’s Approach to Solve Math Word Problems，这个标题乍看是讲大模型解应用题的技术方案，但实际远不止于此。它背后是一整套针对符号逻辑脆弱性、多步推理断裂、现实语义映射失真这三大数学推理顽疾的系统性工程攻坚。我从2022年起持续跟踪GSM8K、MATH、AMC等数学基准的演进，亲眼看着OpenAI团队如何把“模型能算出答案”这件事，拆解成语言理解→结构建模→符号操作→验证闭环四个可干预、可测量、可迭代的工程模块。这不是调几个temperature参数就能搞定的技巧活，而是像搭精密钟表一样，每个齿轮（token位置编码、思维链触发机制、验证器训练策略）都必须严丝合缝。对教育科技从业者，它提供了可落地的智能辅导系统架构；对算法工程师，它揭示了LLM在形式化任务中“能力涌现”的真实边界；对中学数学老师，它意味着未来批改作业时能看到AI不仅给出答案，还能指出学生在哪一步的单位换算上犯了概念性错误。你不需要会写Python，但只要教过孩子“鸡兔同笼”，就能立刻理解他们为什么放弃用方程而改用枚举法——OpenAI的方案，本质上是在给AI补上这一课。

2. 内容整体设计与思路拆解：从“暴力穷举”到“分治验证”的范式转移

2.1 传统方案为何在数学题上集体失效？

2021年之前，主流思路是把数学应用题当普通NLP任务处理：微调BERT类模型，或让GPT-3直接生成答案。我实测过GPT-3在GSM8K上的表现——它能在70%的题目里蒙对答案，但错误模式极其危险：

单位陷阱：题目说“小明买了3斤苹果，每斤5元”，它输出“15元”，却忽略后文“另付包装费2元”，直接跳过关键条件；
逻辑断层：遇到“甲比乙多15%，乙比丙少20%”这类嵌套比较，生成步骤中突然插入不存在的“丙比丁多10%”；
符号幻觉：把“x+2y=10”误读为“x×2y=10”，后续所有计算全盘崩塌。

这些不是模型“笨”，而是其底层架构的天然缺陷：Transformer的注意力机制擅长捕捉局部关联，却无法建立跨句的确定性约束关系。就像让一个只见过照片的人去组装发动机——他能认出螺丝和齿轮，但不知道“这个螺丝必须拧进这个孔，否则整个传动轴会偏移0.3mm”。

2.2 OpenAI的四层防御体系：为什么必须分层设计？

他们彻底放弃了“端到端生成答案”的幻想，转而构建四层漏斗式处理链：

第一层：语义锚定（Semantic Anchoring）
核心动作：强制模型在生成任何计算前，先用固定格式提取不可协商的事实要素。例如对题目“某工厂有男工120人，女工人数是男工的3/4，求总人数”，必须先输出：

{ "male_workers": 120, "female_ratio_to_male": 0.75, "target": "total_workers" }

提示：这个JSON结构不是装饰，而是工程强制。我在复现时发现，若允许模型用自然语言描述（如“女工是男工的四分之三”），后续步骤错误率飙升47%——因为模型会把“四分之三”当成文字而非数值0.75处理。

第二层：推理路径规划（Reasoning Path Planning）
关键创新：用受限的DSL（领域特定语言）替代自由文本。不许出现“所以”“因此”等模糊连接词，只允许三种原子操作：

assign(x, expr)：如assign(female_workers, male_workers * female_ratio_to_male)
calc(target, expr)：如calc(total_workers, male_workers + female_workers)
verify(condition)：如verify(female_workers > 0)

这种设计砍掉了90%的歧义空间。我对比过自由文本链式思考（Chain-of-Thought）与DSL规划，后者在MATH数据集上步骤错误率从38%降至9%。

第三层：符号执行引擎（Symbolic Execution Engine）
这才是真正的技术护城河。它不依赖模型“心算”，而是把DSL指令编译成可执行的Python字节码，在沙箱中逐行运行：

# 模型生成的DSL被转译为： female_workers = 120 * 0.75 # 精确浮点运算 total_workers = 120 + female_workers # 自动插入类型检查：assert isinstance(female_workers, (int, float))

注意：OpenAI没有公开引擎细节，但通过反向工程其API响应延迟，我确认它使用了轻量级Pyodide编译器，而非完整Python解释器——这是为了在200ms内完成执行，同时杜绝os.system()等危险调用。

第四层：反事实验证（Counterfactual Verification）
最反直觉的设计：要求模型主动构造错误答案并证明其错误。例如对最终答案“210人”，必须生成：

"如果总人数是200人，则女工=200-120=80人，但80/120≈66.7%≠75%，矛盾"

这种“证伪驱动”机制，使模型从“追求正确”转向“规避可证伪的错误”，在AMC-12测试中将逻辑漏洞检出率提升至92%。

2.3 为什么不用纯符号AI？——混合架构的生存智慧

有人质疑：“既然要符号执行，干脆用Mathematica不就行了？”这是典型的技术理想主义。我做过对照实验：用Wolfram Alpha API处理GSM8K，准确率仅51%。原因很现实：

输入鲁棒性差：题目“一筐苹果连筐重15kg，卖掉一半后连筐重8kg，求苹果重”，Wolfram需要精确解析“卖掉一半”为“weight_apple/2”，但人类表述常为“卖了一半”“卖出去一半”“卖掉了其中一半”，符号系统无法覆盖所有变体；
上下文缺失：Wolfram不知道“筐”是容器，“连筐”意味着重量包含容器，而LLM通过海量文本已习得这类生活常识；
成本不可控：每次调用Wolfram API平均耗时1.2秒，而OpenAI的混合方案端到端控制在350ms内。

他们的选择是务实的：用LLM做“语义翻译官”，把口语化题目翻译成机器可执行的DSL；用符号引擎做“验算员”，确保每一步计算零误差。这就像让一个精通方言的翻译带着计算器进考场——既懂题意，又不会算错。

3. 核心细节解析与实操要点：那些论文里不会写的魔鬼细节

3.1 语义锚定阶段的三个致命陷阱

很多团队卡在第一步就失败，不是模型不行，而是提示工程踩了坑：

陷阱1：开放式的字段命名
错误示范：

请提取题目中的数字和关系，用JSON格式输出

结果模型可能输出：

{"男生数量": 120, "女生比例": "3/4"}

问题在于“男生数量”和“女生比例”不是预设字段，后续DSL编译器无法识别。正确做法是硬编码Schema：

请严格按以下JSON Schema提取： { "subject_count": integer, // 主体数量（如男工人数） "ratio_to_subject": number, // 相对于主体的比例（如女工/男工） "additive_term": number, // 额外加项（如包装费） "target": string // 目标变量名（如"total_workers"） }

实操心得：我在调试时发现，即使Schema完全正确，模型仍有7%概率漏填additive_term。解决方案是在提示末尾加一句：“若无额外加项，请填0”。这看似简单，却让字段完整率从93%升至99.8%。

陷阱2：比例表达的歧义消解
中文里“女工是男工的3/4”和“女工比男工少1/4”数学等价，但模型常混淆。OpenAI的解法是强制归一化为乘法关系：

所有“比...少X%” → 转为* (1 - X/100)
所有“是...的X/Y” → 转为* X/Y
所有“增加了X倍” → 转为* (1 + X)

我在复现时增加了一个校验步骤：对每个ratio_to_subject字段，自动追加验证语句“该比例应使计算结果为正数”，过滤掉ratio_to_subject=-0.5等非法值。

陷阱3：隐含约束的显式化
题目“一个长方形周长20cm，长比宽多2cm”，表面只有两个条件，但隐含length > width > 0。OpenAI在锚定阶段就要求模型输出：

"constraints": ["length > width", "width > 0"]

这个设计让后续符号执行能提前报错。我测试过，若省略此步，当模型错误假设width=-1时，会得到length=1，最终周长算成2*(1+(-1))=0——而验证层根本不会触发，因为0确实是“20”的某种变形（模型可能认为单位错了）。

3.2 DSL设计的精妙平衡：自由度与安全性的钢丝绳

DSL不是越简单越好。我见过团队设计成只有+ - * /四则运算，结果在三角函数题上彻底崩溃。OpenAI的DSL包含12个原子操作，关键在分层授权：

操作类型	允许场景	禁止场景	我的实测错误率
`assign(x, expr)`	基础赋值（x=120）	赋值含未定义变量（x=y+10，y未声明）	0.2%
`solve_eq(eq, var)`	单一方程求解（solve_eq("2x+3=7", "x")）	多变量方程组（solve_eq("x+y=5,x-y=1", "x")）	3.1%
`calc(target, expr)`	四则运算、基础函数（sqrt, pow）	微积分（diff, integrate）	0.8%

关键发现：solve_eq操作被限制为单变量线性/二次方程，是因为OpenAI发现更复杂的求解器（如SymPy）在API响应中引入不可控延迟，且错误答案难以追溯。他们宁可让模型生成两步：先assign(temp, 2*x+3)再calc(x, (temp-3)/2)，用确定性计算替代符号求解。

另一个魔鬼细节是变量命名规范。模型生成的DSL中，若出现assign(apple_weight_kg, ...)和assign(apple_weight_g, ...)，符号引擎会视为两个独立变量。但OpenAI强制所有物理量带单位后缀，并内置单位转换表：

unit_conversions = { "kg": {"g": 1000, "lb": 2.205}, "cm": {"m": 0.01, "inch": 0.394} }

当检测到apple_weight_kg参与+运算时，自动检查另一操作数单位，不匹配则报错。这避免了“15kg + 800g = 15.8kg”这类低级错误——人类会心算，但机器必须显式声明。

3.3 符号执行引擎的沙箱加固策略

很多人以为“执行Python代码”很简单，但生产环境必须解决三个问题：

问题1：无限循环
恶意输入while True: pass会拖垮服务。OpenAI的解法是字节码级超时：

不用signal.alarm()（对多线程无效）
不用threading.Timer()（无法中断CPU密集型循环）
而是用sys.settrace()钩子，在每个字节码执行前检查时间戳

我在复现时采用更轻量的方案：将DSL编译为AST，遍历所有循环节点，自动注入计数器：

# 原始DSL while condition: do_something() # 编译后 loop_counter_1 = 0 while condition and loop_counter_1 < 100: do_something() loop_counter_1 += 1

100次循环上限足够处理所有数学题（最长链式推理不超过12步），且无性能损耗。

问题2：浮点精度灾难
题目“1/3 + 2/3”，模型可能输出0.3333333333333333 + 0.6666666666666666 = 0.9999999999999999。OpenAI的引擎默认启用decimal模块，但我的实测发现：

decimal.Decimal('1')/3精确但慢（比float慢17倍）
fractions.Fraction(1,3)更快但不支持开方

最终方案是混合精度策略：

整数运算、分数运算 →Fraction
开方、三角函数 →Decimal（精度设为28位）
最终输出前 → 转为float并四舍五入到小数点后6位（人类可读精度）

问题3：验证层的“自欺欺人”风险
模型可能生成完美的验证语句，但逻辑是错的。例如题目求面积，它说：“若面积是100，边长应为10，但10²=100，成立”。这其实是循环论证。OpenAI的破局点是要求验证必须引入新信息：

验证语句中至少包含一个未在原始推理链中出现的数字（如用“周长20”验证“面积100”，而非重复用“边长10”）
或必须使用不同计算路径（如用海伦公式验证勾股定理结果）

我在日志中抓到过典型案例：模型用calc(area, length * width)得出100，验证时却用calc(perimeter, 2*(length+width))验证周长是否为20——这根本不能证明面积正确！后来加入规则：验证表达式必须包含目标变量（area）且运算符与主链不同（主链用*，验证链必须用+或/）。

4. 实操过程与核心环节实现：从零搭建可运行的数学解题流水线

4.1 环境准备与最小可行原型（MVP）

别急着调GPT-4 API，先用本地模型验证架构。我推荐用Phi-3-mini（3.8B），原因很实在：

它在MMLU数学子集上达62.3分，虽不如GPT-4的89.1分，但足够验证流程；
量化后仅2.1GB显存占用，RTX 3090可流畅运行；
开源权重允许修改tokenizer，方便注入DSL关键词。

安装命令（Ubuntu 22.04）：

# 创建隔离环境 conda create -n math-solver python=3.10 conda activate math-solver # 安装核心依赖 pip install torch==2.1.2 torchvision==0.16.2 --index-url https://download.pytorch.org/whl/cu118 pip install transformers==4.41.2 accelerate==0.29.3 bitsandbytes==0.43.1 pip install sympy==1.12 decimal # 符号计算与高精度库

注意：不要用HuggingFace的pipeline接口！它会自动添加无关的<|endoftext|>后缀，破坏DSL语法。必须用model.generate()配合自定义stopping_criteria。

4.2 语义锚定模块的完整实现

核心是设计一个抗干扰的JSON提取器。以下是经过200+次迭代的提示模板：

你是一个数学题解析专家。请严格按以下规则处理题目： 1. 只输出合法JSON，不加任何前导/后缀（如```json或```） 2. 字段必须且仅包含：subject_count, ratio_to_subject, additive_term, target, constraints 3. ratio_to_subject必须为小数（如"3/4"→0.75，"20%"→0.2） 4. constraints为字符串列表，每项是形如"a > b"的不等式 5. 若某字段无对应信息，填null（非0，非空字符串） 题目：{{input}} 输出JSON：

关键技巧：在模型生成后，用正则强制清洗：

import re def clean_json_output(raw): # 提取第一个{...}块 match = re.search(r'\{[^{}]*\}', raw) if not match: return {"error": "no_json_found"} json_str = match.group(0) # 移除注释（模型可能加//comment） json_str = re.sub(r'//.*$', '', json_str, flags=re.MULTILINE) # 强制转义双引号 json_str = json_str.replace('"', '\\"').replace('\\"', '"') return json.loads(json_str)

我在测试中发现，未经清洗的原始输出有12%概率因"未转义导致JSON解析失败，清洗后降至0.3%。

4.3 DSL编译器的核心代码（Python）

这不是简单的字符串替换，而是AST级别的安全编译：

import ast import operator class DSLSafeCompiler(ast.NodeVisitor): def __init__(self): self.allowed_names = {'int': int, 'float': float, 'abs': abs, 'sqrt': lambda x: x**0.5} self.allowed_ops = { ast.Add: operator.add, ast.Sub: operator.sub, ast.Mult: operator.mul, ast.Div: operator.truediv, ast.USub: operator.neg } def visit_Expr(self, node): # 只允许assign/calc/verify调用 if not isinstance(node.value, ast.Call): raise ValueError("Only function calls allowed") func_name = node.value.func.id if func_name not in ['assign', 'calc', 'verify']: raise ValueError(f"Unknown function: {func_name}") self.generic_visit(node) def visit_Call(self, node): # 检查参数是否为安全表达式 for arg in node.args: if not isinstance(arg, (ast.Constant, ast.Name, ast.BinOp, ast.UnaryOp)): raise ValueError("Unsafe argument type") self.generic_visit(node) def compile_dsl(dsl_code: str) -> dict: """编译DSL为可执行字节码""" try: tree = ast.parse(dsl_code) compiler = DSLSafeCompiler() compiler.visit(tree) # 动态执行（沙箱内） local_env = {"__builtins__": {}} exec(compile(tree, "<dsl>", "exec"), local_env) return {"status": "success", "result": local_env.get("target_value")} except Exception as e: return {"status": "error", "message": str(e)} # 示例DSL输入 dsl_input = """ assign(female_workers, subject_count * ratio_to_subject) calc(total_workers, subject_count + female_workers) verify(total_workers > 0) """ print(compile_dsl(dsl_input))

实操心得：这个编译器在测试中拦截了98.7%的恶意代码，包括__import__('os').system('rm -rf /')。但要注意，exec仍存在极小风险，生产环境必须配合Linux cgroups限制内存/CPU。

4.4 反事实验证模块的生成策略

验证不是让模型“随便编个错答案”，而是引导它构造有信息量的反例。我的提示工程如下：

你已完成解题，得到答案{{answer}}。现在请执行反事实验证： 1. 构造一个与{{answer}}不同的数值{{wrong_answer}}（差异>5%） 2. 用题目中的原始条件，推导出{{wrong_answer}}会导致某个明确矛盾 3. 矛盾必须基于题目给定数字，不能引入新假设 4. 输出格式： "若{{target}}={{wrong_answer}}，则[推导步骤]，但[题目原文条件]，矛盾" 题目：{{original_question}} 你的答案：{{answer}}

关键技巧：用温度系数控制创造性。生成wrong_answer时设temperature=0.8（需要一定发散），生成推导步骤时设temperature=0.2（需要严谨）。我在API调用中用两次请求实现：

# 第一次：生成错误答案 wrong_resp = client.chat.completions.create( model="gpt-4-turbo", temperature=0.8, messages=[{"role": "user", "content": prompt_wrong}] ) # 第二次：基于错误答案生成验证 verify_resp = client.chat.completions.create( model="gpt-4-turbo", temperature=0.2, messages=[{"role": "user", "content": prompt_verify.format(wrong=wrong_resp.choices[0].message.content)}] )

这样比单次temperature=0.5生成的验证质量高32%，因为模型不必在同一个响应中兼顾创造与严谨。

4.5 端到端流水线整合与性能调优

把四个模块串起来，关键在错误传播控制：

def solve_math_problem(question: str) -> dict: # 步骤1：语义锚定 anchor = semantic_anchor(question) if anchor.get("error"): return {"status": "anchor_failed", "detail": anchor["error"]} # 步骤2：DSL生成（带重试） for attempt in range(3): dsl_code = generate_dsl(anchor) if is_valid_dsl(dsl_code): break # 重试时强化约束 question += "\n注意：ratio_to_subject必须是小数，constraints必须是不等式字符串" else: return {"status": "dsl_generation_failed"} # 步骤3：符号执行 exec_result = compile_dsl(dsl_code) if exec_result["status"] == "error": return {"status": "execution_failed", "detail": exec_result["message"]} # 步骤4：反事实验证 verify_result = generate_verification(question, exec_result["result"]) return { "answer": exec_result["result"], "verification": verify_result, "steps": [anchor, dsl_code, exec_result, verify_result] } # 性能优化点 - 缓存语义锚定结果：相同题目文本的锚定结果可复用（LRU缓存1000条） - DSL编译预热：启动时编译空DSL，避免首次调用冷启动延迟 - 验证异步化：验证步骤不影响主流程返回，后台生成后更新数据库

我在AWS g4dn.xlarge实例（T4 GPU）上实测：

模块	平均延迟	95%分位延迟
语义锚定	182ms	240ms
DSL生成	310ms	420ms
符号执行	45ms	68ms
反事实验证	290ms	380ms
端到端	827ms	1100ms

注意：OpenAI官方未公布延迟，但根据其API文档的SLA（99.9%请求<2s），我们的827ms完全达标。真正瓶颈在DSL生成，占总耗时62%，这也是他们用GPT-4而非GPT-3.5的原因——后者在此步平均多花210ms。

5. 常见问题与排查技巧实录：那些深夜调试时摔键盘的瞬间

5.1 “模型生成了完美DSL，但执行结果却是错的”——单位地狱

现象：题目“一辆车以60km/h行驶2小时，求路程”，模型输出：

assign(speed, 60) assign(time, 2) calc(distance, speed * time)

执行得distance=120，但单位是km还是m？模型没说，验证层也未检查。

根因分析：DSL本身无单位，但数学题的答案必须带单位。OpenAI的解决方案是在锚定阶段强制单位标注：

{ "speed": {"value": 60, "unit": "km/h"}, "time": {"value": 2, "unit": "h"}, "target": {"name": "distance", "unit": "km"} }

我的修复方案：

修改锚定提示，要求所有数字字段必须是{"value": num, "unit": str}对象；
在DSL编译器中，为每个assign操作自动注入单位检查：

# 编译时插入 if var_name == "distance": assert unit == "km", f"Expected km, got {unit}"

最终答案格式化为"120 km"而非120。

踩坑记录：第一次上线时，我们漏了第2步，导致模型把speed=60（单位km/h）和time=2（单位min）相乘，得到120 km·min/h——这玩意儿连物理学家都看不懂。加了单位断言后，错误率从18%降至0.4%。

5.2 “验证层说答案正确，但人工检查是错的”——逻辑真空区

现象：题目“甲乙丙三人分100元，甲得乙的2倍，丙得甲的1.5倍，求各得多少”，模型输出：

锚定：{"subject_count": 100, "ratio_to_subject": 2, "target": "amount_abc"}（错误！这里subject_count不该是100）
DSL：assign(b, 100/2), assign(a, 2*b), assign(c, 1.5*a)
验证：“若a=40,b=20,c=60，总和120≠100，矛盾”——但它验证的是总和，而题目根本没要求总和为100！

本质问题：验证层被锚定层的错误带偏了。OpenAI的应对是验证层独立访问原始题目，不依赖锚定结果。

我的实现：

验证提示中，原始题目文本作为独立输入：

题目原文：{{original_question}} 你生成的答案：{{answer}} 请基于原文条件，而非锚定结果，构造反例

同时在验证生成时，用正则提取原文中的所有数字和关系，强制验证必须引用这些元素。

实操心得：这个改动让验证有效率从63%升至89%。但代价是验证延迟增加110ms——值得。因为用户宁可等久一点，也不要看到“经验证答案正确”却实际错误的提示。

5.3 “同一题目多次请求，答案不一致”——随机性失控

现象：对题目“圆的直径是10cm，求面积”，三次请求得到：

请求1：78.5 cm²（π取3.14）
请求2：78.53981633974483 cm²（π取math.pi）
请求3：78.54 cm²（四舍五入）

根因：模型在calc步骤中，对π的取值未统一。OpenAI的解法是在DSL中硬编码数学常量：

assign(pi, 3.141592653589793) calc(area, pi * (diameter/2)**2)

我的增强方案：

在锚定阶段，自动识别题目中隐含的π精度要求：
- 出现“取3.14” →pi=3.14
- 出现“保留π” →pi="pi"（符号化，不计算）
- 无说明 →pi=3.141592653589793（15位）
在DSL编译器中，所有pi引用被替换为对应值，杜绝运行时差异。

注意：这个方案让答案一致性达100%，但需在提示中明确告知模型“所有π必须用预设值，不可自行决定”。我在提示末尾加了一句：“记住：π=3.141592653589793，这是铁律”。

5.4 “长题目处理失败，模型截断了关键条件”——上下文窗口的诅咒

现象：题目超过1500字符时，模型在锚定阶段漏掉最后一句“另付手续费5元”，导致答案少5元。

OpenAI的解法：不是扩大上下文（成本爆炸），而是分段摘要+交叉验证：

将题目按句号分割为段落；
对每段单独锚定，生成局部JSON；
合并时检测冲突（如段落1说“男工120人”，段落3说“男工共150人”，则触发人工审核）；
最终锚定结果附带置信度分数。

我的轻量版实现：

用Sentence-BERT计算各段落相似度，合并高度相似段落；
对低置信度字段（如additive_term），强制要求模型在验证层重点检查；
添加监控告警：当单题锚定字段数<3时，标记为“高风险题”，走人工复核通道。

数据说话：在AMC-12长题测试集（平均长度2100字符）上，此方案将漏条件率从31%降至4.2%，且99%的题目仍走全自动流程。

5.5 “模型拒绝生成DSL，一直输出自然语言”——指令遵循失效

现象：无论怎么改提示，模型坚持输出“首先，我们设男工人数为x...”，而不是assign(male_workers, 120)。

终极解决方案：在tokenizer中注入DSL关键词为特殊token。

具体操作：

下载Phi-3的tokenizer；
添加新token：<ASSIGN>,<CALC>,<VERIFY>；
在训练数据中，所有DSL指令前强制加<ASSIGN>；
推理时，设置forced_bos_token_id为<ASSIGN>的ID。

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-4k-instruct") tokenizer.add_tokens(["<ASSIGN>", "<CALC>", "<VERIFY>"]) model.resize_token_embeddings(len(tokenizer)) # 推理时强制首token inputs = tokenizer(prompt, return_tensors="pt") outputs = model.generate( **inputs, forced_bos_token_id=tokenizer.convert_tokens_to_ids("<ASSIGN>") )

效果：此方案让DSL生成成功率从76%跃升至99.2%。代价是需微调模型（约2小时A10G），但换来的是确定性——在教育产品中，确定性比省几块钱GPU费用重要一万倍。

6. 经验总结：当数学题变成工程产品的12个血泪教训

我在交付第三个教育SaaS客户时，把OpenAI这套方法论产品化，过程中踩过的坑比读过的论文还多。这里不讲虚的，只列12条能直接抄作业的经验：

永远不要相信模型的“我认为”：当模型说“我认为女工是男工的3/4”，它可能只是在复述题目，而非真正理解。必须用verify(female_workers == male_workers * 0.75)强制它用数字验证。
DSL的括号必须手写，不能让模型生成：模型生成assign(x, y+z)时，有13%概率漏掉括号变成assign(x, y+z，导致语法错误。解决方案是在提示中写死：assign(x, (y+z))，强制模型照抄括号。
验证层的“矛盾”必须可量化：禁止出现“这显然不合理”这类主观描述。必须是“计算得周长=15cm，但题目给定周长=20cm，相差5cm”。
锚定阶段的null值比0值更安全：当题目没提“包装费”，填additive_term: null，而非0。因为后续DSL