当前位置：首页 > news >正文

用MLflow实现LLM评估的可复现性与工程化落地

news 2026/7/5 8:17:34

1. 项目概述：为什么用 MLflow 来评估大模型，而不是写一堆零散脚本？

“Evaluating LLMs with MLflow: A Practical Beginner’s Guide”这个标题一上来就划清了边界——它不讲怎么训练大模型，不聊模型架构选型，也不堆砌 BLEU、ROUGE、BERTScore 这些指标的数学定义。它直奔一个非常具体、也非常痛的现实问题：当你手头有 3 个微调后的 Llama-3-8B、2 个量化版 Qwen2-7B、还有 1 个刚从 Hugging Face 拉下来的 Phi-3-mini，你如何在 2 天内说清楚‘哪个模型在客服问答任务上真正更稳’？

我做过不下 12 个 LLM 应用落地项目，最常被业务方拍桌子问的一句话是：“你昨天说模型 A 的准确率高 0.8%，那它在真实用户提问里会不会突然胡说八道？上线后监控告警阈值设多少？回滚依据是什么？”——这些问题，靠 Jupyter Notebook 里跑一次accuracy_score()根本答不上来。而 MLflow 的核心价值，恰恰就卡在这个“从单次实验到可复现、可对比、可追踪、可交付”的临界点上。它不是另一个模型训练框架，而是一套面向生产环境的实验治理协议。

标题里的 “Practical Beginner’s Guide” 也绝非谦辞。我见过太多新手一上来就猛啃 MLflow 官方文档的 Tracking Server 部署、Model Registry 权限体系、甚至想自己搭 UI，结果两周过去连本地日志都存不进去。其实对绝大多数刚接触 LLM 评估的工程师来说，前 80% 的真实需求，完全可以用 MLflow 的mlflow.start_run()+mlflow.log_metrics()+mlflow.log_table()三板斧闭环解决。比如你只需要对比两个 prompt 版本在相同测试集上的 hallucination 率和响应时延，根本不需要启动 MySQL 后端或配置 Nginx 反向代理。

关键词 “Evaluating LLMs” 和 “MLflow” 组合在一起，暗示了一个关键转向：LLM 评估正在从“学术打分”走向“工程度量”。传统 NLP 时代，我们习惯把模型丢进标准数据集跑出一个数字就交差；但 LLM 的输出是开放域、多模态、带上下文依赖的，它的“好坏”必须绑定具体场景、具体输入分布、具体失败模式。MLflow 提供的不是新指标，而是让这些指标带上时间戳、带上参数快照、带上原始样本、带上人工标注痕迹的能力。比如你发现某次评估中模型在“退款政策”类问题上幻觉率飙升，MLflow 能立刻定位到那次 run 对应的 prompt template 版本、测试集 commit hash、甚至当时加载的 tokenizer 编码方式——这种可追溯性，才是工程团队敢把模型推进灰度发布的底气。

所以这篇指南的读者画像很明确：你可能刚跑通第一个 LoRA 微调脚本，对transformers.Trainer有点熟悉，但面对“如何证明我的微调没让模型变得更爱编故事”这类问题时，还在用 Excel 手动整理results.json；你不需要成为 MLflow Contributor，但需要在周五下班前，给产品总监发一份带截图、带对比曲线、带失败案例的 PDF 评估报告。接下来的所有内容，都围绕这个目标展开——不讲虚的，只教你怎么在本地 Mac 或 Linux 机器上，5 分钟搭起评估流水线，15 分钟产出第一份可复现的评估报告。

2. 核心思路拆解：为什么 MLflow 是 LLM 评估的“最小可行基础设施”

2.1 不是所有评估都需要复杂平台：从“脚本式评估”到“运行式评估”的范式切换

很多新手会困惑：评估 LLM 无非就是加载模型、跑 inference、算指标，写个 Python 脚本不就完了？为什么还要引入 MLflow？这里的关键在于区分两种评估形态：

脚本式评估（Script-based Evaluation）：典型如evaluate.py，它把所有逻辑硬编码在一起——模型路径写死、测试集路径写死、prompt 模板写死、指标计算逻辑写死。每次想换一个 prompt，就得改代码、重新运行、手动记下结果。更糟的是，如果某次运行因 OOM 中断，你连中间生成的 200 个样本预测结果都找不回来，只能重头再来。
运行式评估（Run-based Evaluation）：MLflow 的核心抽象是Run（运行）。每一次评估，无论长短，都被视为一个独立的、带唯一 ID 的Run。这个Run自动捕获：
- 代码快照：通过mlflow.set_experiment()关联 Git commit ID（需本地仓库已初始化）；
- 参数快照：mlflow.log_params({"model_name": "Qwen2-7B-Instruct", "max_new_tokens": 256})；
- 指标快照：mlflow.log_metrics({"accuracy": 0.872, "avg_latency_ms": 428.6})；
- 数据快照：mlflow.log_table(data=failed_samples_df, artifact_file="failure_cases.json")；
- 输出快照：mlflow.log_artifact("detailed_report.pdf")。

提示：MLflow 的log_table()功能在 2.12.0+ 版本才稳定支持 DataFrame 直接上传为 JSONL，这是 LLM 评估的杀手级特性——你再也不用把 1000 行失败样本手动拼成 CSV 再上传，直接log_table(failed_df)，前端 UI 就能交互式筛选、排序、导出。

这种范式切换带来的实际收益，远超“记录更全”这么简单。举个真实案例：上个月我们评估一个金融问答模型，发现某次run_id = '9a3f1b'的hallucination_rate突然从 12% 跳到 29%。通过 MLflow UI 点开该 run，3 秒内就定位到：

参数差异：temperature从 0.3 误设为 0.8（开发同学调试时忘了改回去）；
数据差异：测试集自动更新到了最新版，新增了 57 条含模糊时间表述的样本（如“上季度末”），而模型对相对时间解析能力弱；
输出证据：failure_cases.json里第 3 行样本清晰显示模型将“上季度末”错误解释为“2024 年 3 月 31 日”，而正确答案应为“2024 年 6 月 30 日”。

没有 MLflow，这三处线索要花至少 2 小时人工比对日志、代码、数据版本才能串起来；有了 MLflow，它就是一个点击操作。

2.2 为什么不用 Weights & Biases 或 ClearML？MLflow 的不可替代性在哪

市面上有多个实验跟踪工具，W&B 做可视化强，ClearML 自动化 pipeline 好，但 MLflow 在 LLM 评估场景下有三个硬核优势，直接决定它是否适合作为“入门首选”：

零依赖本地启动：pip install mlflow && mlflow ui，无需注册账号、无需配置云服务、无需管理 API Token。你在公司内网、客户现场、甚至离线笔记本上，都能秒启一个带完整 UI 的服务。而 W&B 强制要求联网登录，ClearML 默认需要 Redis + MongoDB，对新手极不友好。我试过让一位风控部门的业务分析师（只会写 SQL）在 10 分钟内搭起自己的评估看板，靠的就是mlflow ui这条命令。
Artifact 存储极度灵活：MLflow 的 artifact（产物）可以存本地文件系统、S3、Azure Blob、甚至 NFS。这意味着你可以把千兆级的full_predictions.jsonl文件直接log_artifact()，而不用担心 W&B 的免费版 100MB 上传限制，或者 ClearML 对大文件的分块上传复杂配置。LLM 评估必然产生海量原始输出，MLflow 的存储设计天然适配这一点。
与 Hugging Face 生态无缝咬合：transformers库原生支持 MLflow。你调用pipeline(...)或model.generate()后，mlflow.transformers.log_model()能一键保存模型、tokenizer、甚至自定义预处理函数。更重要的是，它能自动提取模型的config.json和generation_config.json作为元数据记录——这对排查“为什么同样 prompt 下，Qwen2 和 Llama3 幻觉模式不同”至关重要，因为它们的repetition_penalty默认值、eos_token_id设置完全不同。

注意：MLflow 的 Model Registry（模型注册中心）在 LLM 场景下要谨慎使用。Registry 本质是为“训练-部署”闭环设计的，而 LLM 评估更多是“对比-决策”过程。新手容易陷入“先注册模型再评估”的误区，其实完全应该反着来：先用 Tracking 记录上百次评估 run，等找到最优 prompt+model 组合后，再把那个特定 run 的模型 artifacts 手动注册。Registry 不是评估必需品，Tracking 才是。

2.3 初学者最容易踩的坑：把 MLflow 当成“高级 print()”，而非“评估操作系统”

我带过的实习生里，80% 的人第一版代码都是这样写的：

import mlflow mlflow.start_run() mlflow.log_metric("accuracy", 0.85) mlflow.log_param("model", "llama3-8b") # ... 其他代码 mlflow.end_run()

看起来没问题，但实际运行时你会发现：UI 里所有 runs 都显示Source: UNKNOWN，Git SHA是空的，Parameters表格里model字段乱码（因为中文路径未转义），更糟的是，如果你在 Jupyter 里运行，end_run()可能不生效，导致后续 run 全部挂在同一个 session 下。

根本原因在于：MLflow 不是一个日志库，而是一个运行时环境管理器。它需要明确的“上下文锚点”。正确的做法是：

强制绑定 Git：确保你的评估脚本所在目录是 Git 仓库根目录，且已git add . && git commit -m "init eval"。MLflow 会自动读取.git目录获取 commit ID；
显式设置 Experiment：mlflow.set_experiment("llm-eval-customer-service")，而不是依赖默认 experiment；

用 with 语句确保 cleanup：

with mlflow.start_run(run_name=f"eval_{datetime.now().strftime('%Y%m%d_%H%M')}"): mlflow.log_params({"model_id": model_id, "test_set_version": "v2.1"}) # ... your eval logic mlflow.log_metrics({"accuracy": acc, "f1_macro": f1})

这样即使代码抛异常，with也会触发end_run()，避免 run 卡住。

这个细节看似琐碎，但决定了你后续能否做可靠的跨 run 对比。没有 Git commit，你就无法回溯“v2.1 测试集”到底对应哪次代码变更；没有run_name，上百个 run 在 UI 里全是Run 123,Run 124，根本分不清哪个是 A/B 测试。

3. 核心实操环节：从零搭建一个可复现的 LLM 评估流水线

3.1 环境准备与最小依赖安装（5 分钟搞定）

别急着写代码，先确认你的环境干净利落。我强烈建议用虚拟环境，避免和系统 Python 冲突：

# 创建并激活虚拟环境（推荐 Python 3.10+） python -m venv ./llm-eval-env source ./llm-eval-env/bin/activate # macOS/Linux # ./llm-eval-env/Scripts/activate # Windows # 安装核心依赖（注意版本锁定！） pip install --upgrade pip pip install mlflow==2.14.2 # 2.14.x 是当前最稳定的 LLM 评估兼容版本 pip install transformers==4.41.2 # 与 mlflow.transformers.log_model 兼容性最佳 pip install torch==2.3.0 torchvision==0.18.0 --index-url https://download.pytorch.org/whl/cu121 # CUDA 12.1，若无 GPU 则用 cpu 版 pip install pandas==2.2.2 scikit-learn==1.4.2 # 指标计算必备 pip install accelerate==0.30.2 # 必须！用于量化模型加载和内存优化

实操心得：为什么锁死mlflow==2.14.2？因为 2.15.0 引入了对mlflow.evaluate()的重构，但其内置的 LLM 评估器（mlflow.evaluate(..., model_type="llm/v1/chat")）目前仅支持 OpenAI 格式 API，对本地 Hugging Face 模型支持不完善，且文档严重缺失。2.14.2 的log_metrics()+log_table()组合是当前最成熟、最可控的方案。我试过 2.15.0，结果在log_table()时遇到 DataFrame schema 推断 bug，浪费了 3 小时 debug。

验证安装是否成功：

# 启动 MLflow UI（后台运行，不阻塞终端） mlflow ui --host 127.0.0.1 --port 5000 & # 打开浏览器访问 http://127.0.0.1:5000，看到空白界面即成功

此时你还没任何 runs，UI 是空的，这正是我们想要的状态——干净的起点。

3.2 构建评估数据集：不只是“测试集”，而是“可审计的评估契约”

LLM 评估失败，80% 源于数据集本身不严谨。新手常犯的错误是直接拿公开 benchmark（如 GSM8K、AlpacaEval）跑，但这些数据集的设计目标是“模型能力排序”，而非“业务场景风险控制”。你需要构建自己的Evaluation Contract（评估契约），它包含三个强制字段：

字段名	类型	必填	说明
`input`	string	✓	原始用户输入，必须保留原始换行、标点、错别字（如用户真会打“怎末退款”）
`reference`	string	✓	业务方认可的“黄金标准”答案，不是模型理想输出，而是客服 SOP 规定的应答话术
`category`	string	✓	业务维度分类，如`"refund_policy"`,`"shipping_time"`,`"product_spec"`

举个真实例子（来自电商客服场景）：

{ "input": "我昨天下的单，今天还没发货，能查下吗？", "reference": "您好，订单已进入拣货环节，预计今日 18:00 前完成发货，发货后将短信通知您。", "category": "shipping_time" }

注意：reference不是“订单已发货”，而是严格按 SOP 写的完整应答。这决定了你后续计算exact_match或semantic_similarity时的基准。

构建数据集的实操步骤：

从线上日志抽样：导出最近 7 天用户咨询中intent=shipping_inquiry的 500 条 raw log；
业务方标注：邀请 2 名资深客服，对每条 input 手写reference，并标注category；
冲突仲裁：当两名客服答案不一致时，由主管裁决，并记录裁决理由（存入arbitration_notes字段）；
格式化为 JSONL：每行一个 JSON object，用pandas.read_json("eval_set.jsonl", lines=True)可直接加载。

提示：不要用 CSV！CSV 对换行符、引号、emoji 处理极差。JSONL 是 LLM 评估的事实标准。我曾因 CSV 导致 12% 的样本input字段被截断，花了半天才发现是 Excel 自动合并单元格惹的祸。

3.3 编写评估主脚本：`evaluate_llm.py`（核心代码详解）

以下是一个生产可用的评估脚本骨架，我逐行解释关键设计点：

# evaluate_llm.py import os import json import time import torch import pandas as pd from datetime import datetime from typing import List, Dict, Any import mlflow from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, Pipeline from sklearn.metrics import accuracy_score, f1_score from sentence_transformers import SentenceTransformer from sklearn.metrics.pairwise import cosine_similarity # ==================== 配置区（新手务必修改！） ==================== MODEL_ID = "Qwen/Qwen2-7B-Instruct" # Hugging Face 模型 ID TEST_SET_PATH = "./data/eval_set_v2.1.jsonl" # 你的评估契约路径 PROMPT_TEMPLATE = """你是一名专业电商客服，请根据以下信息回答用户问题。 用户问题：{input} 请严格按以下格式回答，不要添加任何额外说明： 【答案】：{answer}""" # ==================== 初始化 MLflow ==================== # 强制设置 Experiment，避免混入 default mlflow.set_experiment("llm-eval-ecommerce-v2") # ==================== 加载模型与 tokenizer ==================== def load_model_and_tokenizer(model_id: str) -> tuple: """加载模型，启用量化以节省显存""" tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True) # 使用 bitsandbytes 4-bit 量化（需提前 pip install bitsandbytes） model = AutoModelForCausalLM.from_pretrained( model_id, device_map="auto", # 自动分配 GPU/CPU torch_dtype=torch.bfloat16, # 减少显存占用 quantization_config=transformers.BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_compute_dtype=torch.bfloat16, ) if torch.cuda.is_available() else None, trust_remote_code=True ) return model, tokenizer # ==================== 构建推理 pipeline ==================== def create_pipeline(model, tokenizer) -> Pipeline: """创建文本生成 pipeline，设置关键 generation 参数""" pipe = pipeline( "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512, temperature=0.3, # 降低随机性，提升结果稳定性 top_p=0.95, repetition_penalty=1.15, # 抑制重复词 do_sample=True, pad_token_id=tokenizer.eos_token_id, eos_token_id=tokenizer.eos_token_id, ) return pipe # ==================== 核心评估函数 ==================== def evaluate_model( model_id: str, test_set_path: str, prompt_template: str, max_samples: int = 100 # 控制单次评估样本数，便于快速迭代 ): # 启动 MLflow Run，带明确名称和标签 with mlflow.start_run( run_name=f"eval_{model_id.split('/')[-1]}_{datetime.now().strftime('%Y%m%d_%H%M')}", tags={"model_source": "huggingface", "eval_type": "customer_service"} ) as run: # 1. 记录所有参数 mlflow.log_params({ "model_id": model_id, "test_set_path": test_set_path, "prompt_template": prompt_template[:100] + "..." if len(prompt_template) > 100 else prompt_template, "max_samples": max_samples, "timestamp": datetime.now().isoformat() }) # 2. 加载数据 print("Loading test set...") df = pd.read_json(test_set_path, lines=True) if max_samples < len(df): df = df.sample(n=max_samples, random_state=42).reset_index(drop=True) mlflow.log_param("evaluated_samples", len(df)) # 3. 加载模型（耗时操作，放在 run 内确保记录） print("Loading model...") model, tokenizer = load_model_and_tokenizer(model_id) pipe = create_pipeline(model, tokenizer) # 4. 执行批量推理（关键：带计时和错误捕获） predictions = [] latencies = [] start_time = time.time() for idx, row in df.iterrows(): try: # 构造 prompt prompt = prompt_template.format(input=row["input"]) # 记录推理开始时间 infer_start = time.time() # 执行推理 outputs = pipe(prompt, truncation=True, max_length=2048) infer_end = time.time() # 提取模型输出（去掉 prompt 部分） full_output = outputs[0]["generated_text"] answer = full_output[len(prompt):].strip() # 记录延迟 latencies.append(infer_end - infer_start) predictions.append({ "input": row["input"], "reference": row["reference"], "prediction": answer, "category": row["category"], "prompt_used": prompt }) print(f"Sample {idx+1}/{len(df)} done. Latency: {infer_end-infer_start:.2f}s") except Exception as e: print(f"Error on sample {idx}: {e}") predictions.append({ "input": row["input"], "reference": row["reference"], "prediction": "[ERROR: " + str(e) + "]", "category": row["category"], "prompt_used": prompt }) latencies.append(-1.0) # 标记失败 total_time = time.time() - start_time mlflow.log_metric("total_eval_time_sec", total_time) mlflow.log_metric("avg_latency_ms", (sum(latencies) / len([l for l in latencies if l > 0])) * 1000) # 5. 计算指标（此处演示基础指标，实际需扩展） pred_list = [p["prediction"] for p in predictions] ref_list = [p["reference"] for p in predictions] # Exact Match（严格匹配） em_scores = [1 if p == r else 0 for p, r in zip(pred_list, ref_list)] em_accuracy = sum(em_scores) / len(em_scores) mlflow.log_metric("exact_match_accuracy", em_accuracy) # F1 Macro（按 category 分组计算） df_pred = pd.DataFrame(predictions) f1_by_cat = {} for cat in df_pred["category"].unique(): cat_mask = df_pred["category"] == cat cat_preds = df_pred[cat_mask]["prediction"].tolist() cat_refs = df_pred[cat_mask]["reference"].tolist() # 简单字符级 F1（生产环境建议用 spaCy 或 BERTScore） cat_f1 = f1_score(cat_refs, cat_preds, average="macro", zero_division=0) f1_by_cat[cat] = cat_f1 mlflow.log_metrics({f"f1_macro_{k}": v for k, v in f1_by_cat.items()}) mlflow.log_metric("f1_macro_overall", sum(f1_by_cat.values()) / len(f1_by_cat)) # 6. 保存详细结果（核心！） results_df = pd.DataFrame(predictions) # 添加一个“是否失败”列，便于后续分析 results_df["is_failure"] = results_df.apply( lambda x: 1 if x["prediction"].startswith("[ERROR:") or not x["prediction"].strip() else 0, axis=1 ) # 保存为 JSONL，MLflow 会自动压缩 mlflow.log_table(results_df, artifact_file="detailed_results.jsonl") # 7. 保存失败案例子集（方便快速查看） failed_df = results_df[results_df["is_failure"] == 1] if len(failed_df) > 0: mlflow.log_table(failed_df, artifact_file="failure_cases.jsonl") print(f"Evaluation completed. Run ID: {run.info.run_id}") return run.info.run_id # ==================== 主入口 ==================== if __name__ == "__main__": run_id = evaluate_model( model_id=MODEL_ID, test_set_path=TEST_SET_PATH, prompt_template=PROMPT_TEMPLATE, max_samples=50 # 新手建议先跑 50 条，确认流程无误 ) print(f"Run ID: {run_id}")

关键设计点解析：

max_samples参数：这是新手的生命线。不要一上来就跑全量 1000 条，先设为 50，确保 pipeline 能跑通、latency 合理、内存不爆。等流程稳定后再逐步放大。
try...except包裹单样本推理：LLM 推理是不稳定的，某个 input 可能触发 tokenizer bug 或 OOM。必须捕获异常，否则整个 run 会中断，前面 49 个样本的结果全丢。
mlflow.log_table()的双重使用：detailed_results.jsonl是全量数据，failure_cases.jsonl是过滤后的子集。UI 中你可以直接下载failure_cases.jsonl，用 VS Code 打开，一行一样本，快速定位问题。
prompt_used字段记录：确保你 log 的是实际送入模型的完整 prompt，而不是模板字符串。这能帮你发现“为什么模型总在回答里漏掉【答案】前缀”这类问题。

运行它：

python evaluate_llm.py

几秒钟后，刷新http://127.0.0.1:5000，你会看到一个新 run，点进去就能看到 Parameters、Metrics、Artifacts 标签页。detailed_results.jsonl已就位。

3.4 指标计算进阶：超越 accuracy，构建业务可理解的风险仪表盘

Accuracy 是个危险的幻觉。在客服场景，accuracy=0.92可能意味着：92% 的问题答得基本正确，但剩下的 8% 全是“承诺发货时间错误”、“虚构退款政策”这类高危错误。我们必须把指标分层：

第一层：基础能力指标（Baseline）

指标	计算方式	业务含义	MLflow 记录方式
`exact_match`	`prediction == reference`	100% 一致，SOP 严丝合缝	`log_metric("exact_match", val)`
`substring_match`	`reference in prediction or prediction in reference`	关键信息不缺失，允许措辞差异	`log_metric("substring_match", val)`
`avg_latency_ms`	`mean(inference_time)`	用户等待体验底线	`log_metric("avg_latency_ms", val)`

第二层：安全风险指标（Critical）

这才是 LLM 上线前必须卡死的红线：

指标	计算方式	业务含义	实现要点
`hallucination_rate`	`(count of predictions containing fabricated facts) / total`	模型编造不存在的政策、日期、金额	需规则引擎或小模型检测，如用`llama.cpp`跑一个轻量 fact-checker
`policy_violation_rate`	`(count of predictions violating SOP rules) / total`	如“不得承诺 24 小时发货”、“不得使用绝对化用语”	正则匹配 + 关键词黑名单
`off_topic_rate`	`(count of predictions ignoring user's core question) / total`	用户问退款，模型答物流	用 sentence-transformers 计算`cosine_similarity(prediction_embedding, input_embedding)`< 0.4

实操心得：hallucination_rate的检测，我推荐用基于规则的轻量方案，而非调用另一个大模型。例如，针对“发货时间”类问题，写一条规则：if "发货" in input and ("24小时" in prediction or "当天" in prediction or re.search(r"(\d+)小时", prediction)) and not any(kw in reference for kw in ["24小时", "当日", "当天"]): hallucinate = True。这条规则 5 分钟写完，准确率 85%，比调用 GPT-4 检测快 100 倍、便宜 1000 倍。

第三层：用户体验指标（UX）

指标	计算方式	业务含义	实现要点
`readability_score`	`textstat.flesch_reading_ease(prediction)`	文本是否易懂，避免长难句	`pip install textstat`
`response_length_chars`	`len(prediction)`	避免过长（>500 字）或过短（<20 字）	`log_metric("response_length_chars", len(p))`
`emoji_usage_rate`	`count_emoji(prediction) / len(prediction)`	是否滥用 emoji 影响专业感	正则`r'[\U0001F300-\U0001F6FF\U0001F900-\U0001F9FF]'`

把这些指标全部log_metric()后，MLflow UI 的 Metrics 页面会自动生成趋势图。你可以直观看到：当temperature从 0.3 调到 0.7 时，exact_match微升 0.5%，但hallucination_rate暴涨 12%——这就是业务方能看懂的决策依据。

4. 进阶技巧与避坑指南：那些官方文档不会告诉你的实战经验

4.1 常见问题速查表：从报错到性能瓶颈的 7 个高频场景

问题现象	根本原因	解决方案	我的实测耗时
UI 显示`Source: UNKNOWN`,`Git SHA: N/A`	当前目录不是 Git 仓库，或`.git`目录损坏	`cd /path/to/your/script && git init && git add . && git commit -m "init"`	2 分钟
`mlflow.log_table()`报`SchemaMismatchError`	DataFrame 包含`NaN`、`None`或混合类型列（如一列里有 str 和 int）	`df = df.fillna("")`+`df = df.astype(str)`强制统一类型	5 分钟
GPU 显存 OOM，`CUDA out of memory`	模型太大，或`batch_size`未设为 1	改用`pipeline(..., batch_size=1)`；启用 4-bit 量化（见 3.3 节）；或换小模型如`Phi-3-mini`	10 分钟（需重装 bitsandbytes）
`exact_match`为 0，但肉眼可见答案正确	`reference`和`prediction`有隐藏空格、换行符、全角/半角标点差异	`ref_clean = reference.strip().replace("\n", " ").replace(" ", "")`，同理清洗 prediction	3 分钟
`mlflow ui`启动后浏览器打不开	端口被占用（如另一进程占了 5000）	`mlflow ui --port 5001`换端口；或`lsof -i :5000`查杀占用进程	1 分钟
评估 run 运行中突然中断，UI 里显示`RUNNING`状态	代码异常退出，`end_run()`未执行	终端执行`mlflow gc`清理僵尸 run；下次务必用`with mlflow.start_run():`	30 秒
`detailed_results.jsonl`下载后中文乱码	MLflow 默认用 UTF-8 编码，但某些编辑器（如老版 Notepad）用 GBK 打开	用 VS Code、Sublime Text 或`cat detailed_results.jsonl \| head -n 1`验证编码	0 分钟（预防胜于治疗）

4.2 性能优化实战：让 100 条样本评估从 12 分钟降到 90 秒

新手常抱怨“LLM 评估太慢”。其实瓶颈不在模型，而在 I/O 和同步。我的优化清单：

禁用 tqdm 进度条：pipeline(...)默认开启 tqdm，它在 Jupyter 里会触发大量 HTML 渲染，拖慢 30%。加参数pipeline(..., return_full_text=False, truncation=True)并移除所有tqdm。

预热模型：首次推理最慢。在正式循环前，加一段预热：

# 预热：用 dummy input 触发 CUDA kernel 编译 dummy_input = "你好" _ = pipe(dummy_input, max_new_tokens=10) torch.cuda.synchronize() # 确保预热完成

批量推理（Batch Inference）：pipeline支持传入 list of strings。修改循环为：

# 改为每批 4 个样本（根据 GPU 显存调整） batch_size = 4 for i in range(0, len(df), batch_size): batch_inputs = df["input"].iloc[i:i+batch_size].tolist() batch_prompts = [prompt_template.format(input=x) for x in batch_inputs] outputs = pipe(batch_prompts, truncation=True, max_length=2048) # 解析 outputs...

实测：单样本循环 100 条耗时 12 分钟；batch_size=4 后降至 3 分钟；batch_size=8（显存允许）后为 90 秒。