当前位置：首页 > news >正文

RelayPlane Proxy：本地AI成本管家，智能路由与预算管控实战

news 2026/5/8 7:55:04

1. 项目概述：一个为AI开发者而生的本地成本管家

如果你和我一样，每天都在用Claude Code、Cursor或者各种AI Agent框架写代码、做分析，那你肯定对月底的API账单感到过“肉疼”。尤其是当你的Agent在后台不知疲倦地调用Opus或者GPT-4o来处理一些简单的日志解析或者代码补全时，那种感觉就像看着钱从指缝里流走。更头疼的是，你往往不知道是哪段代码、哪个Agent花掉了大部分预算，出了问题也只能对着账单干瞪眼。

这就是我最初接触RelayPlane/proxy时的痛点。它不是一个云端服务，而是一个你本地运行的Node.js HTTP代理。简单来说，你把它装在你的开发机上，然后把你的AI工具（比如Claude Code）的API地址指向它（localhost:4100），之后所有发往Anthropic或OpenAI的请求都会先经过它。它的核心使命就两个：帮你省钱和让你看清钱花哪儿了。

我把它看作是一个“智能流量调度器”和“全链路审计员”。它不会碰你的提示词和API密钥——这些敏感数据依然直连官方服务器。它只做中间层的决策和记录：根据任务复杂度自动选择便宜或昂贵的模型（比如简单问答用Haiku，架构设计用Opus），拦截异常的消费循环，并把每一次请求的模型、Token数、预估成本都清晰地展示在一个本地仪表盘上。最让我安心的是，即使这个代理本身崩溃了，你的AI请求也会自动绕过它，直接到达提供商，确保你的工作流永不中断。

对于任何使用Node.js生态，并且重度依赖OpenAI、Anthropic、Gemini等大模型API的开发者、团队或者独立黑客来说，这个工具几乎是无痛上手的成本优化必选项。它用npm一键安装，无需Docker或Python环境，开箱即用。

2. 核心架构与工作原理拆解

要理解RelayPlane如何工作，我们需要把它拆解成一个请求的生命周期。当你从Claude Code发出一条“帮我重构这个函数”的请求时，这个请求的旅程是这样的：

2.1 请求处理流水线

整个代理的核心是一个高度可配置的中间件管道。每一个进来的API请求都会依次通过以下关卡，每个关卡都可以独立启用或配置：

请求解析与标准化：代理首先识别请求是发给Anthropic格式还是OpenAI格式，并提取关键信息如模型名、消息内容、温度等参数。这一步为后续所有决策奠定了基础。
缓存检查：这是省钱的第一道防线。代理会计算当前请求的“指纹”（通常是对关键参数进行哈希）。如果之前有完全相同的请求（在温度=0的确定性条件下），并且缓存未过期，则直接返回硬盘上的缓存响应，完全跳过对LLM提供商的调用。实操心得：对于重复性的CI任务、文档生成或固定的代码检查，开启aggressive缓存模式能省下惊人的费用。
预算检查：代理维护着一个基于SQLite的实时预算追踪器，支持日、小时、单请求三级限额。在请求发出前，它会快速查询内存中的热数据（保证在5毫秒内），判断本次请求是否会突破你设定的任何限额。如果会，则根据onBreach配置采取行动——直接拒绝(block)、仅警告(warn)、自动降级到便宜模型(downgrade)，或触发警报(alert)。
异常检测：这是一个基于滑动窗口（默认最近100个请求）的智能监控层。它会实时分析请求模式，识别四种危险信号：
- 速率突增(velocity_spike)：5分钟内请求频率异常升高，可能是Agent陷入了死循环。
- 成本加速(cost_acceleration)：每分钟的消费成本成倍增长。
- 重复请求(repetition)：相同的模型在短时间内被以相似的Token规模反复调用，可能是逻辑错误。
- Token爆炸(token_explosion)：单次请求的预估成本超过阈值（例如5美元），可能是一次意外的超大上下文提交。一旦检测到，会立即记录并可选地阻断请求，防止“账单惊喜”。
自动降级：当总体消费达到你设定的预算阈值（比如80%）时，所有后续请求中指定的昂贵模型（如claude-opus）会被静默地替换成你预设的便宜模型（如claude-sonnet）。你的Agent可能以为自己还在用Opus，但实际上已经在用Sonnet干活了。代理会在响应头中添加X-RelayPlane-Downgraded，以便你在需要时知晓。
任务复杂度推断：这是智能路由的大脑。注意，这一步完全在本地进行，不调用任何LLM。它通过一套启发式规则分析请求：
- 消息数量和总Token数：通常，对话轮次越多、文本越长，任务越复杂。
- 工具使用情况：如果请求中包含了函数调用（Tools）定义，这通常意味着更复杂的交互。
- 提示词中的关键词：通过正则匹配，识别如“分析”、“比较”、“评估”、“设计架构”等暗示复杂任务的词汇。根据这些信号的综合评分，将请求分类为“简单”、“中等”或“复杂”。
路由决策：基于复杂度分类、你的路由规则（复杂度路由、级联路由）、模型覆盖规则以及可能的路由后缀（如:cost），代理最终决定这个请求应该被发送到哪个具体的模型。如果什么都没配置，就是直通模式，你请求什么模型就用什么模型。
请求转发与响应：代理使用你的API密钥，将请求原样转发给选定的LLM提供商（Anthropic、OpenAI等）。你的提示词和API密钥在这一步才离开你的机器。
记录与同步：收到响应后，代理会记录本次交互的所有元数据：模型、输入输出Token数、延迟、成本估算。这些数据被存入本地SQLite数据库，用于更新仪表盘。同时，如果开启了“渗透网络(Osmosis Mesh)”，匿名的路由信号（仅模型、Token、成本、延迟、成功与否）会被同步到云端，贡献给集体智能（默认开启，可关闭）。

2.2 本地优先与隐私设计

这是RelayPlane让我信任的基石。它的架构严格遵守“本地优先”原则：

你的提示词和响应永不离开你的机器：它们只在你的客户端和LLM提供商之间直接传输。代理只看到请求和响应的“信封”（元数据），而不查看“信件内容”。
你的API密钥本地存储：存储在~/.relayplane/credentials.json中，与配置文件分离。
所有核心功能离线可用：仪表盘、缓存、预算执行、异常检测、路由逻辑全部在本地运行。即使断网，只要你能访问LLM API，代理就能工作。
遥测可审计可关闭：默认开启的遥测仅收集完全匿名的使用指标（设备哈希、模型名、Token数、成本、延迟）。你可以通过--audit模式预览将要发送的数据，或用--offline模式完全禁用网络功能。

这种设计在提供强大洞察力和自动化能力的同时，最大程度地保护了隐私和安全性。

3. 从零开始：安装、配置与深度集成

3.1 基础安装与环境准备

安装过程极其简单，前提是你有Node.js环境（建议v18+）。

# 全局安装代理 npm install -g @relayplane/proxy # 初始化配置（会创建 ~/.relayplane/ 目录和默认配置文件） relayplane init # 启动代理服务器，默认监听 localhost:4100 relayplane start

执行完start后，你应该能看到类似下面的输出，表明代理正在运行，并且本地仪表盘已可访问：

[RelayPlane] Proxy server listening on http://localhost:4100 [RelayPlane] Local dashboard available at http://localhost:4100/dashboard [RelayPlane] Cloud dashboard connected - telemetry enabled.

此时，打开浏览器访问http://localhost:4100，你就能看到实时更新的请求仪表盘了。

关键一步：配置你的AI工具。你需要告诉你的AI客户端，把API请求发送到RelayPlane代理，而不是直接发送到官方端点。这通过设置环境变量实现：

# 对于使用Anthropic API的工具（如Claude Code, OpenClaw） export ANTHROPIC_BASE_URL=http://localhost:4100 # 对于使用OpenAI API格式的工具 export OPENAI_BASE_URL=http://localhost:4100 # 如果你想永久设置，可以添加到你的shell配置文件 (~/.bashrc, ~/.zshrc) echo 'export ANTHROPIC_BASE_URL=http://localhost:4100' >> ~/.zshrc source ~/.zshrc

设置完成后，你所有通过该终端启动的、依赖这些环境变量的AI工具，其请求都将流经RelayPlane。

3.2 配置文件深度解析

RelayPlane的强大源于其灵活的配置文件（默认位于~/.relayplane/config.json）。理解每个配置块是发挥其威力的关键。配置文件采用深度合并策略，你只需要定义你想覆盖的选项。

一个功能全面的配置示例：

{ "enabled": true, "modelOverrides": { "claude-opus-4-5": "claude-3-5-haiku-latest", "gpt-4o": "gpt-4o-mini" }, "routing": { "mode": "complexity", "complexity": { "enabled": true, "simple": "claude-3-5-haiku-latest", "moderate": "claude-sonnet-4-20250514", "complex": "claude-opus-4-20250514" } }, "budget": { "enabled": true, "dailyUsd": 20, "hourlyUsd": 5, "perRequestUsd": 1, "onBreach": "downgrade", "downgradeTo": "claude-3-5-haiku-latest", "alertThresholds": [50, 80, 95] }, "cache": { "enabled": true, "mode": "exact", "maxSizeMb": 512, "defaultTtlSeconds": 86400 }, "anomaly": { "enabled": true, "velocityThreshold": 30, "tokenExplosionUsd": 3.0 } }

配置要点与避坑指南：

modelOverrides(模型覆盖)：这是最粗暴但也最有效的省钱方式。它会在路由逻辑之前生效，将指定的昂贵模型名静默替换成便宜模型。注意：仪表盘上记录的依然是原始请求的模型名，方便你追踪“本应”花费多少。我通常用它来拦截那些我明知不需要强大模型，但Agent配置里又写死了的调用。
路由模式 (routing.mode)：
- passthrough(默认)：你请求什么就用什么，代理只负责记录和检查。
- complexity：根据本地推断的任务复杂度，自动映射到不同层级的模型。这是性价比最高的模式。你需要为simple、moderate、complex三个等级分别指定一个模型。我的经验是，80%的日常编码任务（补全、简单重构、解释）都被归类为simple或moderate，用Haiku或Sonnet足以完美处理，成本只有Opus的十分之一到五分之一。
- cascade(级联)：先尝试最便宜的模型，如果模型的响应表现出“不确定”或“拒绝”，则自动用更贵的模型重试。这适合对质量有要求但又想省钱的场景。escalateOn选项是关键，我推荐用uncertainty，它能捕捉到模型回答中的犹豫语气。
预算 (budget)：务必设置，这是你的安全网。dailyUsd和hourlyUsd是滚动窗口限额。onBreach的downgrade策略非常实用，它能在超支时自动切换到省钱模式，而不是粗暴地阻断你的工作。alertThresholds让你在花到50%、80%、95%预算时得到通知，有充足的时间反应。
缓存 (cache)：对于开发工作流，缓存命中率可能不高，因为每次提示词可能略有不同。但对于测试、CI/CD流水线中固定的检查任务，或者内容生成类Agent，开启aggressive模式并设置较大的maxSizeMb和defaultTtlSeconds（例如一天），可以带来显著的节省。

3.3 与常用工具的深度集成

与Claude Code无缝启动

你不必每次打开IDE都手动启动代理。Claude Code支持钩子（hooks），可以让你在会话启动时自动确保RelayPlane在运行。

将以下配置添加到你的~/.claude/settings.json文件中：

{ "hooks": { "SessionStart": [ { "hooks": [ { "type": "command", "command": "relayplane ensure-running" } ] } ] } }

relayplane ensure-running是一个幂等命令。如果代理已在运行，它什么也不做；如果没运行，则启动它。这样就能实现Claude Code与代理的自动联动了。

与OpenClaw的集成

OpenClaw是一个流行的多模型Agent框架。集成RelayPlane后，你可以获得所有Agent的统一成本视图和智能路由。

# 1. 确保RelayPlane代理已启动 relayplane start # 2. 配置OpenClaw，将其Anthropic提供商的基础URL指向代理 openclaw config set models.providers.anthropic.baseUrl http://localhost:4100

完成这两步后，OpenClaw中所有使用anthropic/前缀模型的请求都会经过RelayPlane。你无需修改每个Agent的模型配置，就能享受成本跟踪、预算控制和智能路由。

混合认证配置

如果你同时拥有Anthropic的标准API密钥和MAX订阅令牌，可以配置混合认证，让昂贵的Opus模型走订阅（通常更划算或免费额度更高），便宜的Haiku/Sonnet走API计费。

{ "auth": { "anthropicMaxToken": "sk-ant-oat-你的MAX令牌", "useMaxForModels": ["opus", "claude-opus"] } }

同时，将你的标准API密钥设置到环境变量：

export ANTHROPIC_API_KEY="sk-ant-api03-你的标准密钥"

代理会根据请求的模型名是否包含opus（不区分大小写）来决定使用哪个令牌。两个令牌都会通过x-api-key头发送，这是Anthropic API的要求。

4. 高级功能实战：让省钱与管控自动化

4.1 利用智能别名与路由后缀

RelayPlane定义了一些语义化的智能别名，让你在请求中不用记复杂的模型ID。

你在请求中使用的模型参数	RelayPlane实际路由的模型 (通过OpenRouter)	适用场景
`rp:best`	`anthropic/claude-sonnet-4-5`	追求当前最佳综合性能
`rp:fast`/`relayplane:auto`	`anthropic/claude-3-5-haiku`	日常任务，追求速度与成本的平衡
`rp:cheap`	`google/gemini-2.0-flash-001`	纯文本处理、摘要等对能力要求不高的任务
`rp:balanced`	`anthropic/claude-3-5-haiku`	同`rp:fast`，默认的平衡之选

在你的Agent配置或代码中，可以直接使用这些别名：

// 在你的代码中 const response = await openai.chat.completions.create({ model: 'rp:fast', // 使用智能别名 messages: [...], });

更进一步，你还可以在任何模型名后附加路由后缀，给代理一个优化提示：

claude-sonnet-4:cost：告诉代理：“为这个请求选择最便宜的可用路由（可能是Gemini Flash）”。
gpt-4o:quality：告诉代理：“为这个请求选择我能用的质量最好的模型（可能是GPT-4o本身，或通过OpenRouter路由的同等能力模型）”。
claude-opus-4:fast：告诉代理：“在Opus级别中，给我选一个响应最快的实例”。

后缀会被代理剥离后再进行实际的提供商查找，但它会强烈影响路由决策。这在你不确定具体哪个模型好，但明确知道当前任务的优先级时非常有用。

4.2 配置级联路由作为安全网

级联路由 (cascade) 是一种“先试便宜的，不行再上贵的”的策略。它特别适合回答事实性问题、执行确定性任务，或者当你对便宜模型的能力边界不太确定时。

{ "routing": { "mode": "cascade", "cascade": { "enabled": true, "models": [ "claude-3-5-haiku-latest", "claude-sonnet-4-20250514", "claude-opus-4-20250514" ], "escalateOn": "uncertainty", "maxEscalations": 1 } } }

工作流程：

代理首先将请求发送给列表中的第一个模型claude-3-5-haiku-latest。
收到响应后，代理会分析响应文本。
如果响应中包含“不确定”的语言（如“I'm not sure”, “I cannot”, “As an AI”），并且maxEscalations次数未用完，则代理会用相同的提示词，自动重试列表中的下一个模型claude-sonnet-4-20250514。
将最终（最贵的那个）成功响应返回给你的客户端。

注意事项：

成本：级联可能产生多次API调用费用，但通常第一次（最便宜的）调用就能成功，总体成本仍低于直接使用最贵模型。
延迟：因为可能涉及多次重试，总延迟会增加。不适合对延迟敏感的场景。
escalateOn: "error"只在请求完全失败（如网络错误、额度不足）时触发重试，不分析内容。
确保你的models数组是按成本从低到高排列的。

4.3 设置健壮的预算与警报系统

预算管理是防止意外支出的核心。除了基础的金额限制，RelayPlane提供了细粒度的控制。

{ "budget": { "enabled": true, "dailyUsd": 30, "hourlyUsd": 8, "perRequestUsd": 1.5, "onBreach": "downgrade_and_alert", "downgradeTo": "claude-3-5-haiku-latest", "alertThresholds": [25, 50, 75, 90] }, "alerts": { "enabled": true, "webhookUrl": "https://hooks.slack.com/services/...", "cooldownMs": 600000 } }

预算执行逻辑：

滚动窗口：每日/每小时预算是滚动计算的，不是按自然日/小时。例如，在下午2:15触发的每小时限额，会计算从下午1:15到2:15的花费。
多级行动：onBreach可以组合，如downgrade_and_alert。行动优先级是：block(最高) >downgrade>warn>alert(最低)。
降级映射：当触发降级时，代理会使用内置的模型成本映射表，将所有比downgradeTo指定模型更贵的请求，都替换为downgradeTo模型。你可以在downgrade.mapping中自定义这个映射关系。

警报集成：将webhookUrl设置为你的团队聊天工具（如Slack、钉钉、飞书）的Incoming Webhook地址。当发生以下情况时，你会收到通知：

消费达到alertThresholds设定的百分比。
触发了anomaly异常检测。
预算被突破（如果onBreach包含alert）。cooldownMs防止在短时间内对同一事件轰炸式报警。

常用CLI命令监控预算：

# 查看当前消费状态 relayplane budget status # 输出示例： # Daily budget: $30.00 | Spent: $12.47 (41%) | Remaining: $17.53 # Hourly budget: $8.00 | Spent: $1.23 (15%) | Remaining: $6.77 # 动态调整预算（无需重启代理） relayplane budget set --daily 50 --hourly 15 # 重置消费计数器（比如开始一个新项目） relayplane budget reset

4.4 部署为系统服务实现常驻

对于开发机或服务器，你可能希望RelayPlane代理像后台服务一样一直运行。它提供了便捷的系统服务安装命令。

# 对于 Linux (systemd) sudo relayplane service install # 此命令会： # 1. 创建 systemd 服务单元文件 (/etc/systemd/system/relayplane.service) # 2. 从当前shell环境捕获 ANTHROPIC_API_KEY 等环境变量并写入服务文件 # 3. 启用并启动服务 # 4. 设置看门狗(WatchdogSec=30)，服务异常退出会自动重启 # 检查服务状态 sudo systemctl status relayplane # 或使用代理自带的命令 relayplane service status # 查看服务日志 sudo journalctl -u relayplane -f # 卸载服务 sudo relayplane service uninstall

# 对于 macOS (launchd) relayplane service install # 此命令会创建 LaunchAgent plist 文件 (~/Library/LaunchAgents/com.relayplane.proxy.plist) # 并加载它。 # 检查状态 relayplane service status # 卸载 relayplane service uninstall

安装前的重要准备：

确保环境变量已设置：在运行install命令的终端里，务必已经export了所有必要的API密钥（ANTHROPIC_API_KEY,OPENAI_API_KEY等）。服务安装程序会捕获这些变量并固化到服务配置中。
配置文件就位：确保你的~/.relayplane/config.json已经按需配置好。服务会读取这个文件。
权限问题：在Linux上需要sudo。在macOS上，LaunchAgent以你的用户身份运行，通常没问题。

安装成服务后，代理会在系统启动时自动运行，无需你再手动启动。这对于将AI能力集成到CI/CD流水线或长期运行的监控脚本中至关重要。

5. 仪表盘详解与成本洞察实战

启动代理并产生一些流量后，访问http://localhost:4100或http://localhost:4100/dashboard就能看到本地仪表盘。这是你所有花费的“指挥中心”。

5.1 核心面板解读

仪表盘主要分为几个区域：

顶部概览卡片：显示总请求数、成功率、平均延迟以及今日总花费。这是你第一眼需要关注的地方，快速了解整体开销。
成本分解图：通常是一个环形图或堆叠柱状图，按模型和提供商两个维度展示你的花费分布。这里能清晰看出谁是“耗电大户”。例如，你可能会发现claude-opus虽然单次调用少，但总花费占比高；或者通过OpenRouter调用的gemini-flash成本极低。
节省分析：这是RelayPlane的价值直观体现。它会区分两种节省：
- 路由节省：通过智能路由（如用Haiku处理了本应发给Opus的简单任务）为你省下的钱。
- 缓存节省：通过响应缓存避免的重复API调用费用。工具提示会解释计算逻辑：(原始请求模型成本 - 实际使用模型成本) * 次数。
请求历史列表：按时间倒序列出所有请求。每一行显示时间戳、Agent名称、模型、输入/输出Token数、延迟、成本和状态。关键功能：点击行可以展开，查看该次请求的系统提示词预览、用户消息预览和AI响应预览。这是排查“为什么这次调用这么贵”的利器。
Agent成本分解表：这是v1.7引入的强大功能。RelayPlane通过哈希系统提示词来唯一标识不同的Agent。这个表格列出了每个独立Agent的总花费、请求次数和平均每次请求成本。你可以立刻发现是哪个自动化Agent在“烧钱”。

5.2 利用数据驱动优化

仪表盘不只是用来“看”的，更是用来“行动”的。

场景一：发现某个Agent成本异常高

在“Agent成本分解表”中找到花费最高的Agent。
在“请求历史”中筛选该Agent。
展开几个高成本的请求，查看具体的提示词和响应。很可能是因为提示词设计得过于冗长，或者该Agent被用于处理本不适合它的复杂任务。
行动：优化该Agent的提示词，或者修改其配置，通过modelOverrides或复杂度路由，将其默认模型改为更便宜的选项。

场景二：缓存命中率低

观察“节省分析”中“缓存节省”是否一直为0或很低。
可能原因：你的工作流中请求的多样性太高，或者温度参数temperature不为0（缓存默认只缓存确定性请求）。
行动：如果业务允许，尝试将某些任务的temperature设为0。或者，在配置中将cache.onlyWhenDeterministic设为false，并调整cache.mode为aggressive，以尝试更宽松的缓存匹配。

场景三：频繁触发异常检测

如果你配置了警报，可能会收到velocity_spike或repetition警报。
回到仪表盘，查看警报时间点附近的请求历史。很可能你的Agent陷入了某种循环，或者有一个脚本在疯狂重试。
行动：检查相关代码的逻辑。同时，可以考虑在RelayPlane配置中调低anomaly.velocityThreshold或缩短anomaly.windowMs，让代理更早、更敏感地阻断异常流量，充当防火墙。

5.3 通过CLI进行健康检查与维护

除了图形界面，CLI提供了快速检查和维护命令。

# 查看代理整体状态，包括版本、运行时间、云连接状态 relayplane status # 查看详细的统计和节省情况，适合写入报告 relayplane stats # 管理缓存 relayplane cache status # 查看缓存状态（条目数、大小、命中率、节省金额） relayplane cache clear # 清空缓存（在模型更新或提示词重大变更后建议执行） # 管理渗透网络(Osmosis Mesh) relayplane mesh status # 查看Mesh连接和贡献状态 relayplane mesh off # 关闭Mesh（停止共享和接收匿名路由信号） # 管理遥测 relayplane telemetry status relayplane telemetry off # 禁用所有遥测数据上报

6. 故障排查与常见问题实录

在实际使用中，你可能会遇到一些问题。以下是我和社区成员遇到过的一些典型情况及其解决方案。

6.1 代理已启动，但AI工具无法连接/超时

症状：Claude Code或OpenClaw报错，提示无法连接到API，或请求超时。

排查步骤：

确认代理运行：在终端执行curl http://localhost:4100/health。应该返回一个包含{"status":"ok","uptime":...}的JSON。如果没有响应，说明代理没在运行。
检查端口占用：代理默认使用4100端口。用lsof -i :4100或netstat -an | grep 4100检查是否被其他程序占用。可以通过relayplane start --port 4101更换端口启动，并相应更新环境变量ANTHROPIC_BASE_URL=http://localhost:4101。
验证环境变量：在你的AI工具运行的终端里，执行echo $ANTHROPIC_BASE_URL或echo $OPENAI_BASE_URL，确认已正确设置为http://localhost:4100（或你自定义的端口）。常见陷阱：在A终端启动了代理并设置了环境变量，却在B终端运行AI工具，B终端没有这个变量。
检查防火墙：确保本地回环地址(127.0.0.1)的4100端口没有被防火墙阻止。这在某些严格的系统安全策略下可能发生。
查看代理日志：启动代理时添加-v标志 (relayplane start -v) 开启详细日志。观察当AI工具发起请求时，代理是否收到并处理了请求。

6.2 仪表盘没有数据或数据不准

症状：仪表盘打开，但请求历史为空，或者成本计算看起来不对。

排查步骤：

确认流量经过代理：这是最常见的原因。确保你的AI工具确实在向代理发送请求。检查AI工具的配置或代码，确认其使用的Base URL是代理地址。对于OpenAI SDK，可能是new OpenAI({ baseURL: 'http://localhost:4100' })；对于Anthropic SDK，是new Anthropic({ baseURL: 'http://localhost:4100' })。
检查API密钥：代理需要你的API密钥来转发请求。确保已正确设置环境变量（如ANTHROPIC_API_KEY），并且密钥有效、有余额。代理日志会记录提供商返回的错误。
模型名映射问题：如果你使用了模型覆盖(modelOverrides)或智能路由，仪表盘上显示的“模型”可能是原始请求的模型名，而实际调用的是另一个。成本是按实际调用的模型计算的。展开请求详情可以查看“实际模型”字段。
缓存影响：如果请求命中了缓存，则不会产生实际的API调用和成本。仪表盘仍会记录这次请求，但成本为0或极低。这是正常现象，正是缓存节省的体现。

6.3 复杂度路由或级联路由不生效

症状：配置了复杂度或级联路由，但请求似乎还是直接使用了原始模型。

排查步骤：

确认配置已加载：修改~/.relayplane/config.json后，需要重启RelayPlane代理 (relayplane restart或先停止再启动)。代理只在启动时读取配置。
检查路由模式：确认routing.mode设置正确 (complexity或cascade)，并且对应的complexity.enabled或cascade.enabled为true。
查看详细日志：使用relayplane start -v启动。对于每个请求，日志会输出类似[路由决策] 原始模型: gpt-4o, 推断复杂度: simple, 最终路由: gpt-4o-mini的信息。这能清晰展示路由过程。
理解分类逻辑：复杂度分类基于本地启发式规则，并非100%准确。非常短或非常长的提示词可能被误判。你可以通过展开仪表盘中的请求详情，查看“推断任务类型”字段来验证分类结果。
级联触发条件：检查cascade.escalateOn设置。如果是uncertainty，只有当第一个模型的响应中包含特定的犹豫词汇时才会升级。可以尝试改为refusal或error测试。

6.4 预算限制或警报没有触发

症状：设置了每日预算，但花费明显超过了却没有触发降级或警报。

排查步骤：

确认预算功能开启：检查budget.enabled是否为true。
理解滚动窗口：每日预算是滚动24小时，不是自然日。如果你在昨天下午花了20美元，今天早上又花了15美元，但两次花费间隔小于24小时，就可能触发35美元的日限额。使用relayplane budget status查看当前滚动窗口内的消费。
检查onBreach动作：warn和alert只记录日志或发送通知，不会阻断请求或改变模型。如果你期望的是自动降级，需要设置为downgrade。
查看警报历史：运行relayplane alerts list查看是否有警报被触发但你没注意到（比如没有配置Webhook）。警报有冷却时间(cooldownMs)，短时间内同一类型的警报不会重复发送。
成本估算误差：RelayPlane的成本是基于公开的API定价和Token数估算的，可能与提供商的实际账单有细微出入。预算系统基于这个估算值运行。

6.5 服务安装后无法启动

症状：使用sudo relayplane service install安装后，systemctl status relayplane显示服务失败。

排查步骤：

查看日志：sudo journalctl -u relayplane -e查看最新的服务日志。最常见的问题是环境变量丢失。服务安装时从当前shell捕获变量，如果安装时没有设置ANTHROPIC_API_KEY等，服务启动就会失败。
手动补充环境变量：编辑systemd服务文件sudo vi /etc/systemd/system/relayplane.service，在[Service]部分添加Environment=行，例如：
```
[Service] Environment="ANTHROPIC_API_KEY=sk-ant-api03-..." Environment="OPENAI_API_KEY=sk-..." User=你的用户名 ...
```
保存后，运行sudo systemctl daemon-reload和sudo systemctl restart relayplane。
检查用户权限：确保服务文件中User=设置正确，并且该用户有权限读取~/.relayplane/目录（如果是多用户系统，注意路径可能是/home/用户名/.relayplane）。
二进制路径问题：确保relayplane命令在系统的PATH中，或者在全局安装的路径下（如/usr/local/bin/relayplane）。可以在服务文件中使用ExecStart=/usr/local/bin/relayplane start指定绝对路径。