当前位置：首页 > news >正文

基于免费大模型的智能客服训练实战：从数据准备到生产部署

news 2026/4/7 0:22:35

“想自己搭个智能客服，结果一问GPU报价就劝退？”
去年我在帮一家50人规模的电商公司做内部工具时，老板的原话是：“预算0元，目标80%的阿里小蜜水平，两周上线。”
今天把当时从0到1的完整过程拆给你看：只用免费开源模型、家用级硬件，照样能跑出一套可商用的智能客服。下面所有代码都在GitHub公开过，亲测可复现。

一、自建智能客服的三座大山：数据、算力、算法

数据：客服日志里80%是“亲亲在吗？”这种噪音，剩下20%还夹杂着手机号、订单号，直接喂给模型，它分分钟学会“人肉开盒”。
算力：一张A100租金6k/月，公司财务当场翻白眼；用CPU训练？LLaMA-7B全量微调，16G显存直接OOM。
算法：开源模型更新比女朋友脾气还快，今天ChatGLM-6B、明天LLaMA-2-13B，哪个中文好？哪个省显存？没有对照实验根本踩不完坑。

二、免费模型横评：LLaMA vs ChatGLM vs Bloom

我把三个模型都在同一台“4核16G+RTX3060 12G”机器上跑了一遍，结论先给你：

维度	LLaMA-7B	ChatGLM-6B	Bloom-7B
中文零样本	62%（需要提示模板）	85%	70%
微调后F1	0.81	0.83	0.78
显存占用(LoRA)	9.8G	10.5G	11.2G
首token延迟	320ms	280ms	410ms
商用协议	可商用（需遵守LLaMA2）	可商用	可商用

最终我选了ChatGLM-6B：中文好、延迟低，社区轮子多，出了问题能搜到答案。

三、核心实现三步走

1. 数据清洗：用spaCy把“亲亲”洗掉，把手机号打码

原始日志长这样：

2023-10-11 09:01:02 用户13800138000: 亲亲，我的订单123456789还没发货？

处理目标：

去掉口语噪音（亲亲、哈哈、emm）
实体脱敏：手机号、订单号、地址
只保留“用户-客服”一问一答对，用于监督微调

代码（PEP8，关键注释已写）：

# clean_logs.py import spacy, re, json, glob from spacy.lang.zh.stop_words import STOP_WORDS nlp = spacy.load("zh_core_web_sm") PHONE_RE = re.compile(r'1[3-9]\d{9}') ORDER_RE = re.compile(r'\d{9,12}') def scrub(text): """实体脱敏+噪音清洗""" text = PHONE_RE.sub("<PHONE>", text) text = ORDER_RE.sub("<ORDER>", text) doc = nlp(text) # 去掉停用词&口语词 tokens = [t.text for t in doc if t.text not in STOP_WORDS] return ''.join(tokens) def build_pair(raw_file): """把原始日志转成QA对""" qa_list = [] with open(raw_file, encoding='utf8') as f: lines = f.readlines() user, agent = "", "" for line in lines: if line.startswith("用户"): user = scrub(line.split(":", 1)[1].strip()) elif line.startswith("客服"): agent = scrub(line.split(":", 1)[1].strip()) if user and agent: qa_list.append({"instruction": user, "output": agent}) user, agent = "", "" return qa_list if __name__ == "__main__": all_qa = [] for fn in glob.glob("logs/*.txt"): all_qa.extend(build_pair(fn)) # 最终导出1.2万条干净QA json.dump(all_qa, open("train.json", "w", encoding='utf8'), ensure_ascii=False, indent=2)

跑完脚本，体积从原始800MB压缩到干净38MB，脱敏率100%，噪音词下降72%。

2. 模型微调：LoRA+gradient_checkpointing省显存

显存只有12G，全量微调想都别想。上LoRA（Low privilegRA）：

# train_lora.py from transformers import AutoTokenizer, AutoModel from peft import LoraConfig, get_peft_model, TaskType import torch MODEL_PATH = "THUDM/chatglm-6b" tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True) model = AutoModel.from_pretrained(MODEL_PATH, trust_remote_code=True) # LoRA配置：只调QKV投影，rank=8 peft_config = LoraConfig( task_type=TaskType.CAUSAL_LM, inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1, target_modules=["query_key_value"] ) model = get_peft_model(model, peft_config) # 显存优化三板斧 model.gradient_checkpointing_enable() model.enable_input_require_grads() torch.cuda.empty_cache() # 下面就是常规Trainer，省略

训练参数：

batch_size=1，gradient_accumulation_steps=16
learning_rate=2e-4，epochs=3
显存峰值10.5G，3060单卡跑完3小时（晚上挂着睡觉，第二天收模型）。

3. 部署优化：FastAPI异步+Redis缓存

架构图如下：

FastAPI开4worker，uvicorn异步，单实例就能打满4核
Redis缓存“常见问题”结果，命中率42%，平均响应从280ms降到120ms
模型权重放内存（约5G），启动一次35s，之后常驻

核心代码片段：

# api.py from fastapi import FastAPI from pydantic import BaseModel import torch, redis, json, time from peft import PeftModel from transformers import AutoTokenizer, AutoModel app = FastAPI() pool = redis.Redis(host='127.0.0.1', port=6379, decode_responses=True) tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True) base_model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True) model = PeftModel.from_pretrained(base_model, "./lora_ckpt") model.half().cuda().eval() class Query(BaseModel): uid: str text: str @app.post("/chat") async def chat(q: Query): key = f"cache:{hash(q.text)}" if (r := pool.get(key)): return {"reply": r, "source": "cache"} with torch.no_grad(): ids = tokenizer.build_inputs(q.text, history=[]) out = model.chat(tokenizer, query=q.text, history=[]) reply = out[0] pool.setex(key, 300, reply) # 缓存5分钟 return {"reply": reply, "source": "model"}

四、性能实测：4核16G机器能扛多少QPS？

工具：wrk2，50并发，持续30s

指标	数值
平均QPS	18.2
P95延迟	520ms
P99延迟	980ms
缓存命中率	42%
CPU峰值	78%
显存占用	10.5G

结论：纯CPU推理也能顶住中小电商的日常咨询量；高峰期加一台同样配置做负载均衡即可。

五、生产避坑指南

对话状态维护
别把history[]直接塞给模型，长度爆炸。策略：
- 保留最近3轮
- 超过512token自动截断，从头部丢旧轮次
敏感词过滤
即使训练时脱敏，用户输入仍可能夹带脏话。加一层“敏感词树”过滤，5万条词库，单次匹配<1ms，拦截率99.3%。
冷启动策略
新店铺没日志？用ChatGPT生成“假”对话：
- 先给50个高频场景（退货、改地址、优惠券）
- 让GPT-3.5-turbo各写20组QA
- 人工快速抽检，合格率85%，直接当种子数据喂给模型，三天就能上线第一版。
版本回滚
把LoRA权重单独保存，旧权重留3版；一旦线上翻车，30秒热回滚，无需重启主进程。