当前位置：首页 > news >正文

AI辅助开发实战：扣子空间智能客服系统的架构设计与最佳实践

news 2026/3/26 21:33:19

背景痛点：传统客服系统为什么总“答非所问”

做 ToC 业务的同学都体会过，老版 FAQ-Bot 像“木头人”：

关键词匹配一旦遇到“我想改地址，但刚才下错单了”这种跨意图句子，立刻宕机。
多轮对话靠 if/else 硬编码，状态散落在十几张表，新人两周都理不清。
上线后最怕“新增一个意图”，得重新走全量回归，发版窗口全被吃光。

一句话：规则引擎（Rule Engine）在 Intent Recognition/意图识别与 Dialogue State Tracking/对话状态跟踪上，维护成本指数级上涨，准确率却线性下降。

架构对比：规则 vs 机器学习 vs 大模型

先给结论，再聊细节：

维度	规则引擎	传统 ML（FastText/TextCNN）	LLM（如 ChatGLM3-6B）
响应延迟	5 ms	20 ms	180 ms（GPU）
Top-1 准确率	78 %（人工标注）	91 %	94 %
新增意图成本	高（要排优先级、写正则）	中（标注 200 条+重训）	低（5-shot prompt）
线上运维	噩梦	普通	需要 GPU 预算

扣子空间最后折中：

意图层用轻量 BERT-base， latency<30 ms，准确率>92 %
闲聊与兜底走 LLM，触发量<8 %，GPU 成本可控
规则仅做“白名单”敏感词，不再参与业务逻辑

核心实现一：BERT 意图分类器（含微调源码）

1. 数据预处理

# preprocess.py import pandas as pd, json, random, numpy as np from sklearn.model_selection import train_test_split from transformers import BertTokenizer RANDOM_SEED = 42 MAX_LEN = 32 tokenizer = BertTokenizer.from_pretrained("bert-base-chinese") def load_raw(jsonl_path): """读取人工标注数据：{"text":"xxx","label":"change_addr"}""" texts, labels = [], [] with open(jsonl_path, encoding="utf8") as f: for line in f: item = json.loads(line) texts.append(item["text"]) labels.append(item["label"]) return texts, labels def encode(texts): """返回 input_ids / 注意：中文不用转小写""" return tokenizer(texts, padding="max_length", max_length=MAX_LEN, truncation=True, return_tensors="np")

2. 微调脚本（单卡 2080Ti 足够）

# train_intent.py from datasets import Dataset from transformers import (BertForSequenceClassification, TrainingArguments, Trainer) import preprocess as pp texts, labels = pp.load_raw("intent_train.jsonl") label2id = {l: i for i, l in enumerate(sorted(set(labels)))} id2label = {v: k for k, v in label2id.items()} def ds_generator(): for t, l in zip(texts, labels): encoded = pp.encode([t]) yield {"input_ids": encoded["input_ids"][0], "attention_mask": encoded["attention_mask"][0], "labels": label2id[l]} train_ds = Dataset.from_generator(ds_generator) model = BertForSequenceClassification.from_pretrained( "bert-base-chinese", num_labels=len(label2id)) args = TrainingArguments( output_dir="ckpt/intent", per_device_train_batch_size=64, learning_rate=2e-5, num_train_epochs=5, logging_steps=50, save_total_limit=2, load_best_model_at_end=True, metric_for_best_model="accuracy") trainer = Trainer(model=model, args=args, train_dataset=train_ds, tokenizer=pp.tokenizer) trainer.train() trainer.save_model("ckpt/intent")

训练 3 万条、25 个意图，验证集准确率 92.7 %，足够线上用。

核心实现二：对话状态机 + Redis 存储方案

扣子空间把“对话”抽象成有限状态机（FSM），状态=意图+槽位，用 Redis Hash 存储，key 设计：

kouzi:session:{user_id} -> {"intent":"change_addr","slots":{"order_id":"123"},"ttl":600}

Python 伪代码：

import redis, json, time r = redis.Redis(host="localhost", decode_responses=True) def get_state(user_id): data = r.hgetall(f"kouzi:session:{user_id}") return json.loads(data["body"]) if data else None def set_state(user_id, state, ttl=600): key = f"kouzi:session:{user_id}" r.hset(key, "body", json.dumps(state, ensure_ascii=False)) r.expire(key, ttl)

优势：

接口无状态，方便水平扩容
TTL 自动清掉僵尸会话，省内存
Hash 结构支持 slot 级更新，O(1)

性能优化：压测、量化、缓存三板斧

1. 压测数据（4 核 8 G，单卡 T4）

并发	平均延迟	P99 延迟	QPS
10	22 ms	45 ms	450
50	28 ms	65 ms	1.8 k
100	39 ms	90 ms	2.5 k
200	71 ms	180 ms	2.8 k

CPU 先顶满，GPU 才到 35 %。结论：推理不是瓶颈，序列化+GIL 才是。

2. 模型量化（ONNX Runtime）

# quantize.py from transformers import BertTokenizer from optimum.onnxruntime import ORTModelForSequenceClassification model = ORTModelForSequenceClassification.from_pretrained( "ckpt/intent", export=True) model.quantize(quantization_config={ "algorithm": "dynamic", "weight_type": "QUInt8"}) model.save_pretrained("ckpt/intent_q8")

体积 380 M → 95 M，延迟再降 18 %，P99 回到 70 ms 以内。