企业级agent设计流程
真正可落地的 agent 通常是 4 层:
① Model Layer(LLM)
- GPT / Qwen / Claude / LLaMA + LoRA
② Agent Orchestration Layer(核心逻辑)
- planner / router / memory / tool loop
③ Tool Layer(能力接口)
- search / db / code / workflow / API
④ Data Layer(企业数据)
- knowledge base / vector DB / CRM / ERP
企业级tool集合
1️⃣ 数据类工具(连接企业数据)
- query_customer_db(sql)
- get_order_status(order_id)
- fetch_user_profile(user_id)
2️⃣ 知识类工具
- vector_search(query)
- document_retrieval(query)
3️⃣ 执行类工具(必须加权限控制)
- run_python(code)
- trigger_workflow(name)
4️⃣ 外部系统工具(沙盒需隔离)
- call_crm_api()
- call_erp_api()
- send_email()
构建步骤
✅ Step 1:需求拆解(最关键)
明确:
- agent 要解决什么问题?
- 是客服?数据分析?自动化办公?
- 需要哪些系统能力?
✅ Step 2:设计 Tool Layer(核心)
定义工具 API:
defquery_db(sql:str)->dictdefsearch_docs(query:str)->listdefcall_crm(user_id:str)->dict并统一 schema:
{"name":"query_db","parameters":{"sql":"string"}}✅ Step 3:搭建 Agent Runtime
核心 loop:
LLM → tool selection → execute → observe → repeat
通常用:
- LangGraph
- AutoGen
- OpenAI tool calling
- 自研 loop
✅ Step 4:选择基础模型
例如:
- GPT-4.1 / GPT-4o
- Claude 3.5
- Qwen2.5 / Qwen3
- LLaMA 3
✅ Step 5:LoRA 微调(可选但很有用)
训练数据通常包括:
① tool call 数据
User: 查订单 123
Assistant:{"tool":"query_db","arguments":{"sql":"..."}}② reasoning + tool chain
step1: search step2: analyze step3: summarize③ error correction 数据
wrong tool → retry correct tool
✅ Step 6:Memory & RAG 系统
加入:
- vector DB(FAISS / Milvus / pgvector)
- document ingestion
- embedding pipeline
✅ Step 7:Tool Execution Layer(安全关键)
必须做:
- 参数校验
- 权限控制
- timeout
- sandbox (python / sql)
- audit log(审计日志)
✅ Step 8:Agent Control Logic
包括:
- tool routing
- retry strategy
- max loop limit
- fallback model
✅ Step 9:Evaluation system(很多人忽略)
需要评估:
- tool selection accuracy
- answer correctness
- latency
- hallucination rate
✅ Step 10:部署 & 监控
- API gateway
- logging
- tracing(LangSmith / OpenTelemetry)
- cost control
┌──────────────┐ │ User Input │ └──────┬───────┘ ↓ ┌────────────────────┐ │ LLM(LoRA)│ │ planner +caller│ └────────┬───────────┘ ↓ ┌────────────────────┐ │ Tool Router │ └────────┬───────────┘ ↓ ┌─────────────┼──────────────┐ ↓ ↓ ↓ DB Tool Search Tool Python Tool ↓ ↓ ↓ └────────┬───────────┘ ↓ Tool Result Validator ↓ ┌────────────────────┐ │ LLM Final Answer │ └────────────────────┘Tool 与 LLM 的交互流程(完整)
User Query ↓ LLM(decide tool)↓ JSON Tool Call ↓ Validator(schema check)↓ Executor(API / DB / code)↓ Result JSON ↓ LLM(reason + verify)↓ Final Answerharness 评测框架
OpenAI Evals 是一个用于评估大型语言模型(LLM)及基于 LLM 构建系统的开源评测框架。它帮助开发者以可重复、可量化的方式比较模型、提示词(prompt)和应用版本,从而发现性能变化并减少回归问题。
核心能力
OpenAI Evals 的设计目标是将 LLM 评测 变成类似传统软件测试的工程流程。它支持使用标准数据集或自定义测试集,针对不同模型运行相同测试,并根据预定义规则或 LLM-as-a-judge 等方法自动评分。开发者还可以构建仅在本地或私有环境使用的评测数据集,而无需公开业务数据。
agent_system/ │ ├── agent/ │ ├── planner.py │ ├── router.py │ ├── memory.py │ └── llm.py │ ├── tools/ │ ├── db_tools.py │ ├── search_tools.py │ └── action_tools.py │ ├── runtime/ │ ├── executor.py │ ├── validator.py │ └── sandbox.py │ ├── harness/ │ ├── runner.py │ ├── loader.py │ ├── evaluator.py │ └── metrics.py │ ├── datasets/ │ └── logs/一个真实企业流程
用 lm-eval-harness 选基础模型
→ GPT-4 vs Qwen vs Claude用 OpenAI Evals 测 agent 能力
→ tool-use correctness上线后用 LangSmith
→ debug failure cases
