当前位置：首页 > news >正文

Context Engineering与Prompt Engineering实战对比：如何选择正确的AI交互设计方法

news 2026/3/26 20:10:39

“同样让大模型写周报，有人一句话就搞定，有人却得把上周所有聊天记录都塞进去，结果还超了 token 上限。”
“客服机器人上线第一周，用户问‘我的订单到哪了’，第二轮就忘了订单号，气得客户直摔手机。”

如果你也踩过类似的坑，说明已经碰到了 AI 交互设计的分水岭：到底该把功夫花在“指令”上，还是花在“上下文”上？下面用一次真刀真枪的对比，把 Context Engineering（下文简称 CE）和 Prompt Engineering（下文简称 PE）掰开揉碎讲清楚。

1. 两种思路的技术原点

1.1 Prompt Engineering：把话说明白

核心动作是“压缩任务”。通过少样本（few-shot）、角色扮演、思维链（CoT）等技巧，把需求、格式、边界一次写进 prompt，模型无状态、无记忆，每次调用都是“零样本学习”。
优点：实现简单、可 A/B 测试、无状态易横向扩容。
代价：指令一旦过长，token 烧得飞快；多轮场景下需要“把历史再讲一遍”，容易失真。

1.2 Context Engineering：把记忆管起来

核心动作是“维护会话状态”。把用户画像、多轮实体、业务 KV 缓存在外部存储（Redis、DB、文件），每次只把“当前必要背景”动态注入 prompt，实现“对话状态跟踪”。
优点：省 token、支持长周期记忆、可审计。
代价：需要额外存储、序列化/反序列化逻辑、并发一致性，以及“该带哪些、不该带哪些”的策略设计。

2. 跑一段代码，比一百句理论都直观

任务：让模型给电商用户生成“订单取消原因说明”，要求 50 字以内、礼貌安抚、带上订单号。
分别用 PE（一次性全量历史）和 CE（动态加载上下文）跑 100 条随机订单，看 token、耗时、成功率。

2.1 依赖

pip openai==1.3.0 redis==5.0.0

2.2 Prompt Engineering 版（全量历史拼接）

import openai, time, os, random from statistics import mean openai.api_key = os.getenv("OPENAI_API_KEY") def pe_cancel_reason(order_id, history): """ history: List[Dict["role","content"]]，把整轮对话全部拼进去 """ prompt = [ {"role": "system", "content": "你是客服小助手，请用50字以内、礼貌安抚的语气说明订单取消原因。"}, *history, {"role": "user", "content": f"我的订单{order_id}为什么被取消？"} ] t0 = time.perf_counter() try: resp = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=prompt, max_tokens=60, temperature=0.3 ) cost = resp['usage']['total_tokens'] lat = time.perf_counter() - t0 return resp['choices'][0]['message']['content'], cost, lat except Exception as e: return f"PE_error: {e}", 0, 0

2.3 Context Engineering 版（外部状态+精简注入）

import redis, json, openai, time, os r = redis.Redis(host='localhost', port=6379, decode_responses=True) def ce_cancel_reason(order_id, user_id): # 1. 加载用户级记忆 ctx = r.hgetall(f"ctx:{user_id}") or {} prev_intent = ctx.get("intent", "") user_level = ctx.get("level", "普通") sys_tpl = ( "你是客服小助手，用户等级：{user_level}，历史意图：{prev_intent}。" "请用50字以内、礼貌安抚的语气说明订单{order_id}取消原因。" ).format(user_level=user_level, prev_intent=prev_intent, order_id=order_id) t0 = time.perf_counter() try: resp = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "system", "content": sys_tpl}, {"role": "user", "content": f"订单{order_id}为何被取消？"}], max_tokens=60, temperature=0.3 ) cost = resp['usage']['total_tokens'] lat = time.perf_counter() - t0 # 2. 更新上下文 ctx.update({"intent": "查询取消原因", "last_order": order_id}) r.hset(f"ctx:{user_id}", mapping=ctx) return resp['choices'][0]['message']['content'], cost, lat except Exception as e: return f"CE_error: {e}", 0, 0

2.4 简易压测脚本

if __name__ == "__main__": orders = [f"T{random.randint(1e8, 9e8)}" for _ in range(100)] user = "u123" hist = [{"role": "user", "content": "我想查订单"}, {"role": "assistant", "content": "请提供订单号"}] pe_tokens, pe_lats = [], [] for oid in orders: _, t, l = pe_cancel_reason(oid, hist) pe_tokens.append(t) pe_lats.append(l) ce_tokens, ce_lats = [], [] for oid in orders: _, t, l = ce_cancel_reason(oid, user) ce_tokens.append(t) ce_lats.append(l) print("PE avg tokens:", mean(pe_tokens), "avg latency:", f"{mean(pe_lats):.2f}s") print("CE avg tokens:", mean(ce_tokens), "avg latency:", f"{mean(ce_lats):.2f}s")