当前位置：首页 > news >正文

LangSmith监控实战：我是如何把月度AI调用成本砍掉30%的？

news 2026/7/26 16:03:01

LangSmith监控实战：我是如何把月度AI调用成本砍掉30%的？

去年夏天，当财务团队把上个月的AI服务账单发到技术部门群聊时，整个会议室陷入了诡异的沉默——单月令牌消耗费用首次突破了六位数。作为技术负责人，我盯着那个数字足足十秒钟，意识到我们引以为豪的智能客服系统正在成为吞噬预算的黑洞。但危机往往伴随着转机，这次成本失控事件促使我们建立了一套基于LangSmith的精细化监控体系，最终在三个月内实现了30%的成本优化。本文将完整还原这段实战历程，从问题定位到解决方案落地，分享可复用的技术策略与工具组合。

1. 成本失控的真相：从宏观数据到微观分析

当AI应用的规模达到日均数万次调用时，仅靠直觉已经无法判断成本流向。我们首先利用LangSmith的聚合分析功能，对生产环境进行了全面扫描：

from langsmith import Client from datetime import datetime, timedelta client = Client() end_date = datetime.utcnow() start_date = end_date - timedelta(days=30) # 获取过去30天所有LLM调用记录 runs = client.list_runs( project_name="prod-customer-support", run_type="llm", start_time=start_date.isoformat() ) # 按模型版本分类统计令牌消耗 model_breakdown = {} for run in runs: model = run.metadata.get("model_version", "unknown") prompt_tokens = run.metrics.get("prompt_tokens", 0) completion_tokens = run.metrics.get("completion_tokens", 0) if model not in model_breakdown: model_breakdown[model] = { "prompt": 0, "completion": 0, "count": 0 } model_breakdown[model]["prompt"] += prompt_tokens model_breakdown[model]["completion"] += completion_tokens model_breakdown[model]["count"] += 1

分析结果令人震惊——尽管我们80%的业务场景使用的是GPT-3.5，但剩下20%的GPT-4调用却消耗了62%的令牌预算。更关键的是，通过交叉比对调用日志，发现有15%的GPT-4调用其实完全可以用3.5版本处理。

典型问题场景示例：

问题类型	发生频率	令牌浪费比例
过度使用GPT-4	15%	38%
重复上下文注入	22%	27%
未压缩的历史对话	31%	19%
冗余系统提示	12%	16%

2. 提示工程优化：从粗放到精准的手术刀式调整

定位到主要成本来源后，我们针对高频问题实施了分层优化策略。以下是效果最显著的三项改进：

2.1 动态模型路由机制

基于用户意图分析自动选择性价比最优的模型：

def route_model_selector(user_query: str, history: list) -> dict: from some_nlp_library import classify_intent intent = classify_intent(user_query) # 简单查询使用3.5版本 if intent in ["greeting", "faq", "order_status"]: return { "model": "gpt-3.5-turbo", "max_tokens": 512 } # 复杂场景使用GPT-4 if intent in ["technical_support", "complaint_handling"]: return { "model": "gpt-4", "max_tokens": 1024 } # 默认配置 return { "model": "gpt-3.5-turbo", "max_tokens": 768 }

实施该策略后，GPT-4的调用比例从20%降至9%，而用户满意度评分保持稳定。

2.2 上下文压缩算法

针对对话历史导致的令牌膨胀问题，我们开发了智能压缩模块：

def compress_chat_history(history: list) -> str: """ 将对话历史压缩为紧凑摘要 示例输入: [{"role":"user","content":"如何重置密码"}, {"role":"assistant","content":"访问账户设置页面..."}] """ if len(history) <= 2: return "\n".join(f"{msg['role']}: {msg['content']}" for msg in history) # 对长历史生成摘要 summary_prompt = """请用1-2句话总结以下对话的核心内容，保留关键信息： {history} """ # 使用小模型生成摘要 summary = llm_compact_model( prompt=summary_prompt.format(history=history), max_tokens=100 ) return f"对话摘要：{summary}"

该方案使多轮对话的平均令牌消耗降低40%，尤其对客服场景的长时间会话效果显著。

2.3 提示词模版瘦身

通过A/B测试发现，许多系统提示存在过度设计问题。我们建立了提示词效能评估体系：

必要性检查：逐句确认每个提示元素的业务价值
最小化测试：逐步移除组件观察效果变化
语义密度分析：用嵌入模型计算信息熵

优化后的系统提示平均长度从450 token降至210 token，且任务完成率提升5%。

3. 工程架构升级：系统级优化策略

除了直接的提示优化，我们在基础设施层面实施了三个关键改进：

3.1 智能缓存层

对高频重复查询建立多级缓存：

import hashlib from redis import Redis class QueryCache: def __init__(self): self.redis = Redis(host='cache.redis') self.local_cache = {} def get_cache_key(self, query: str, context: str) -> str: content = f"{query}||{context}" return hashlib.sha256(content.encode()).hexdigest() def check_cache(self, key: str) -> Optional[str]: # 先检查内存缓存 if cached := self.local_cache.get(key): return cached # 检查Redis缓存 if cached := self.redis.get(f"llm:{key}"): return cached.decode() return None def set_cache(self, key: str, response: str, ttl: int): self.local_cache[key] = response self.redis.setex(f"llm:{key}", ttl, response)

缓存命中率达到34%后，每月减少约800万次冗余LLM调用。

3.2 流式处理管道

对长文本生成场景实施分块流式处理：

async def stream_response(user_query: str): # 首先生成响应大纲 outline = await llm_compact_model( prompt=f"为以下问题生成回答大纲：{user_query}", max_tokens=100 ) # 并行生成各段落 paragraphs = await asyncio.gather( *[expand_paragraph(point) for point in outline.split("\n")] ) # 流式返回 for para in paragraphs: yield para await asyncio.sleep(0.1) # 控制流速

该方案不仅改善用户体验，还将长响应场景的令牌消耗降低18-25%。

3.3 预算熔断机制

建立实时成本监控与自动调控系统：

from datetime import datetime class BudgetGuard: def __init__(self, monthly_budget: int): self.budget = monthly_budget self.used = 0 self.reset_date = self._next_reset_date() def _next_reset_date(self): today = datetime.now() if today.day > 25: return today.replace(month=today.month+1, day=1) return today.replace(day=26) def check_spending(self, projected: int) -> bool: if datetime.now() >= self.reset_date: self.used = 0 self.reset_date = self._next_reset_date() return (self.used + projected) <= self.budget def record_usage(self, tokens: int): self.used += tokens

当预测将超预算时，系统自动切换至节约模式，优先使用缓存和小模型。

4. 监控体系搭建：从被动响应到主动预防

成本优化不是一次性项目，而需要持续监控机制。我们建立了三层监控体系：

4.1 实时仪表盘

集成到运维控制台的关键指标：

令牌消耗速率：按模型/业务线分类
成本预测：基于当前趋势的月度预测
异常检测：突增调用自动告警

def generate_cost_report(): from langsmith import Client import pandas as pd client = Client() runs = client.list_runs( project_name="prod-customer-support", start_time=datetime.utcnow() - timedelta(hours=24) ) df = pd.DataFrame([{ "time": run.start_time, "model": run.metadata.get("model"), "tokens": (run.metrics.get("prompt_tokens", 0) + run.metrics.get("completion_tokens", 0)), "cost": calculate_cost(run) } for run in runs if run.metrics]) return df.groupby( [pd.Grouper(key="time", freq="1H"), "model"] ).agg({"tokens": "sum", "cost": "sum"})

4.2 自动化审计规则

定期扫描低效模式的检测规则库：

audit_rules = [ { "name": "长上下文短响应", "condition": lambda run: ( run.metrics.get("prompt_tokens", 0) > 500 and run.metrics.get("completion_tokens", 0) < 50 ), "action": "review_context_compression" }, { "name": "高频重复查询", "condition": lambda run: ( run.metadata.get("cache_hit", False) and run.metadata.get("cache_age") > 3600 ), "action": "add_to_cache_warmup" } ]