当前位置：首页 > news >正文

开源工具token-usage-ui：可视化监控LLM API Token用量与成本

news 2026/5/8 9:31:33

1. 项目概述：一个为AI开发者量身打造的Token用量监控利器

如果你正在开发基于OpenAI、Anthropic、Azure OpenAI等主流大语言模型API的应用，那么“Token用量”这个指标，你一定不会陌生。它直接关联着你的API调用成本、应用性能，甚至是用户体验。然而，原生的API响应里，Token信息往往只是几个冰冷的数字，散落在日志的海洋中。当你想分析不同用户、不同功能、不同时间段的Token消耗模式，或者想为不同团队或客户进行成本分摊时，手动统计无异于一场噩梦。这正是我最初遇到的困境，也是促使我深度使用并研究Walliiee/token-usage-ui这个开源项目的直接原因。

简单来说，token-usage-ui是一个轻量级、自托管的Web用户界面，专门用于可视化、分析和监控来自多个LLM（大语言模型）供应商的API Token使用情况。它不是一个独立的日志系统，而是一个强大的“仪表盘”，需要你将自己的应用日志（特别是包含Token消耗数据的日志）导入到它支持的数据库中（如SQLite、PostgreSQL），然后它便能为你呈现清晰直观的图表和报告。你可以把它想象成你API成本数据的“专属财务总监”，把杂乱的流水账整理成一目了然的财务报表。

这个项目非常适合以下几类开发者：一是独立开发者或小团队，希望以最低成本监控自己产品的API开销；二是企业内部正在试验或部署多个AI应用的团队，需要进行跨项目的成本核算和优化；三是为客户端提供AI集成服务的开发者，需要向客户透明化地展示资源使用情况。它的核心价值在于，将技术指标（Token数）直接转化为业务指标（成本、效率），让不可见的消耗变得可见、可分析、可管理。

2. 核心设计思路：从数据聚合到可视化洞察

2.1 解决的核心痛点：成本黑盒与优化无据

在接触 token-usage-ui 之前，我和团队监控Token用量的方式非常原始：写脚本定期从云服务商的账单里拉取总费用，或者从应用日志里用grep和awk勉强统计个总数。这种方式存在几个致命缺陷：

粒度太粗：只能看到总花费，不知道是哪个功能、哪个用户、哪个模型消耗了大头。当某个月账单突然飙升时，排查起来如同大海捞针。
实时性差：云账单通常有数小时甚至一天的延迟，无法及时预警异常消耗。
缺乏关联性：Token消耗无法与具体的请求参数（如提示词长度、模型类型）、用户行为或业务指标关联起来，无法进行深度的“性价比”分析。
分摊困难：在多租户或为多个客户服务的场景下，无法公平、准确地将API成本分摊到具体客户或项目上。

token-usage-ui 的设计哲学正是直击这些痛点。它没有尝试重新发明轮子去收集日志，而是采用了非常务实的“数据消费方”定位。它假设你已经有了结构化的日志数据（或者你愿意花一点功夫将日志整理成结构化数据），它的任务是高效地“消费”这些数据，并提供强大的查询与展示能力。

2.2 架构选型：轻量、灵活与可扩展

项目的技术栈选择体现了其“轻量级监控仪表盘”的定位。前端基于现代化的React框架，搭配Recharts等图表库，确保了交互体验的流畅与美观。后端通常是一个简单的Node.js或Python服务，负责从数据库读取数据并通过API提供给前端。整个应用可以轻松地通过Docker容器化部署，几乎可以在任何有Docker环境的地方运行，包括你自己的笔记本电脑、开发服务器或云主机。

这种架构带来的最大优势是“低侵入性”和“高灵活性”。

低侵入性：你不需要大规模改造现有应用的代码。只需要确保在调用LLM API后，将必要的使用数据（如timestamp,user_id,project,model,prompt_tokens,completion_tokens,total_tokens等）写入到token-usage-ui支持的数据库中即可。这可以通过在应用代码中增加几行日志记录逻辑，或通过像OpenTelemetry这样的可观测性框架来实现。
高灵活性：因为它与你的数据源（数据库）是解耦的，所以你可以自由选择如何收集和存储数据。你可以用最简单的脚本将JSON日志文件解析后插入数据库，也可以搭建一个复杂的日志管道。数据库方面，它通常支持从轻量级的SQLite（适合个人或小规模使用）到更强大的PostgreSQL（适合团队和生产环境）。

注意：token-usage-ui 项目本身可能不包含一个开箱即用的、自动从你的应用抓取日志的“采集器”。你需要自己实现数据注入的部分。这是理解这个项目性质的关键——它提供的是“展示层”和“分析层”，而“数据层”需要你根据自己的架构来适配。

2.3 数据模型设计：如何定义一次Token消耗

要让这个系统工作，我们需要一个清晰的数据模型。虽然具体表结构可能因版本而异，但其核心思想是围绕“一次API调用事件”来记录。一个最小化的有效记录应该包含以下字段：

字段名	类型	描述	必要性
`id`	自增主键	记录唯一标识	必需
`timestamp`	DateTime	API调用发生的时间	必需，用于时间序列分析
`user_id`/`api_key`	String	调用者标识（可以是内部用户ID、API Key别名或客户端ID）	强烈推荐，用于按用户/客户分摊成本
`project`/`endpoint`	String	项目或功能模块名称（如 “chat_service”, “summary_api”）	强烈推荐，用于按业务维度分析
`model`	String	调用的LLM模型名称（如 “gpt-4-turbo”, “claude-3-sonnet”）	必需，不同模型单价不同
`prompt_tokens`	Integer	提示词消耗的Token数	必需
`completion_tokens`	Integer	返回内容消耗的Token数	必需
`total_tokens`	Integer	总Token数（通常为前两者之和）	推荐，方便直接查询
`cost`	Decimal (可选)	估算的成本（可根据`model`和`total_tokens`实时计算或事后填入）	可选，但可视化时更直观

有了这个基础模型，你就能回答诸如“过去一周里，用户‘Alice’在‘文档总结’功能上，使用GPT-4花了多少钱？”这类业务问题了。

3. 部署与配置实操：从零搭建你的监控面板

3.1 环境准备与项目获取

假设我们选择最经典的Docker部署方式，这能最大程度避免环境依赖问题。首先，确保你的服务器或本地机器已经安装了Docker和Docker Compose。

获取项目代码通常有两种方式：

直接Clone仓库：git clone https://github.com/walliiee/token-usage-ui.git
使用Docker镜像：如果作者提供了官方镜像（如walliiee/token-usage-ui:latest），部署会更简单。你需要查看项目的README来确认推荐方式。

为了演示，我们假设采用Clone代码并配合Docker Compose的方式，这样更容易自定义配置（如数据库连接）。

# 1. 克隆项目 git clone https://github.com/walliiee/token-usage-ui.git cd token-usage-ui # 2. 查看项目结构，通常会有 docker-compose.yml 和 .env.example 文件 ls -la

3.2 数据库配置与初始化

token-usage-ui 本身不包含数据库，你需要单独部署一个。这里以PostgreSQL为例，因为它在生产环境中更可靠。我们在docker-compose.yml同级目录下创建一个.env文件来管理环境变量，并编写一个docker-compose.yml文件。

.env 文件内容示例：

# PostgreSQL 配置 POSTGRES_DB=token_usage POSTGRES_USER=admin POSTGRES_PASSWORD=your_secure_password_here POSTGRES_HOST=db # Docker Compose中的服务名 POSTGRES_PORT=5432 # Token Usage UI 配置 (根据项目实际需要的环境变量调整，此处为示例) UI_PORT=3000 DATABASE_URL=postgresql://admin:your_secure_password_here@db:5432/token_usage

docker-compose.yml 文件内容示例：

version: '3.8' services: db: image: postgres:15-alpine container_name: token-usage-db restart: unless-stopped environment: POSTGRES_DB: ${POSTGRES_DB} POSTGRES_USER: ${POSTGRES_USER} POSTGRES_PASSWORD: ${POSTGRES_PASSWORD} volumes: - postgres_data:/var/lib/postgresql/data ports: - "5432:5432" # 主机端口映射，方便本地工具连接 token-usage-ui: # 假设有官方镜像，否则需要构建 image: walliiee/token-usage-ui:latest # 或使用 build: . container_name: token-usage-ui restart: unless-stopped depends_on: - db environment: DATABASE_URL: ${DATABASE_URL} UI_PORT: ${UI_PORT} ports: - "${UI_PORT}:${UI_PORT}" volumes: # 如果需要挂载配置文件或静态资源，可以在这里配置 - ./config:/app/config volumes: postgres_data:

然后启动服务：

docker-compose up -d

启动后，数据库容器和UI容器应该都在运行。你可以通过docker ps检查状态，并通过http://localhost:3000访问Web界面（如果UI_PORT设为3000）。

实操心得：在第一次启动后，UI可能因为数据库表不存在而报错。很多这类项目会在首次启动时自动运行数据库迁移（migration）脚本。如果没有，你通常需要在项目代码中找到schema.sql或类似的SQL文件，手动连接到PostgreSQL容器执行它来创建表。连接命令如：docker exec -it token-usage-db psql -U admin -d token_usage -f /path/to/schema.sql（需要先将schema文件复制到容器内）。务必在注入数据前完成这一步。

3.3 数据注入：连接你的应用到监控系统

这是最关键的一步。你需要修改你的AI应用代码，在每次成功调用LLM API后，将使用数据插入到上述的PostgreSQL数据库中。

以下是一个Python（使用psycopg2库和OpenAI SDK）的简单示例：

import psycopg2 from openai import OpenAI import os from datetime import datetime # 数据库连接配置（应从环境变量读取） DB_CONFIG = { "host": os.getenv("DB_HOST", "localhost"), "port": os.getenv("DB_PORT", "5432"), "database": os.getenv("DB_NAME", "token_usage"), "user": os.getenv("DB_USER", "admin"), "password": os.getenv("DB_PASSWORD", "") } # OpenAI客户端 client = OpenAI(api_key=os.getenv("OPENAI_API_KEY")) def call_openai_and_log(user_id, project, prompt, model="gpt-3.5-turbo"): """ 调用OpenAI API并记录Token用量 """ try: response = client.chat.completions.create( model=model, messages=[{"role": "user", "content": prompt}] ) # 提取用量信息 usage = response.usage prompt_tokens = usage.prompt_tokens completion_tokens = usage.completion_tokens total_tokens = usage.total_tokens # 插入数据库 conn = psycopg2.connect(**DB_CONFIG) cursor = conn.cursor() insert_query = """ INSERT INTO api_usage (timestamp, user_id, project, model, prompt_tokens, completion_tokens, total_tokens) VALUES (%s, %s, %s, %s, %s, %s, %s) """ cursor.execute(insert_query, ( datetime.utcnow(), # 使用UTC时间保持一致性 user_id, project, model, prompt_tokens, completion_tokens, total_tokens )) conn.commit() cursor.close() conn.close() print(f"API调用成功，Token已记录。Prompt: {prompt_tokens}, Completion: {completion_tokens}") return response.choices[0].message.content except Exception as e: print(f"调用或记录失败: {e}") # 在实际生产中，这里应该有更完善的错误处理和重试逻辑 return None # 示例调用 # result = call_openai_and_log(user_id="user_123", project="customer_support", prompt="Hello, how are you?")

注意事项：

性能考虑：同步插入数据库可能会增加API调用的延迟。对于高性能场景，建议采用异步方式，例如将日志事件发送到一个消息队列（如Redis Streams、RabbitMQ），然后由另一个消费者服务批量写入数据库。
错误处理：数据库插入失败不应导致主业务逻辑失败。务必做好异常捕获，也许可以降级为写入本地文件，稍后补录。
数据安全：确保数据库连接信息（密码等）通过环境变量管理，不要硬编码在代码中。

4. 功能深度解析与使用技巧

4.1 核心仪表盘：一眼看清全局与趋势

成功部署并注入数据后，登录token-usage-ui，你首先看到的应该是一个综合仪表盘。一个设计良好的仪表盘通常会包含以下核心部件：

关键指标卡片：展示“今日总Token消耗”、“本月总成本”、“活跃用户数”、“最常用模型”等实时汇总数据。这让你对当前状态有一个瞬时把握。
时间序列折线图：这是最重要的图表之一。它展示了Token消耗量或估算成本随时间（如按小时、按天）的变化趋势。你可以通过它快速发现异常峰值（例如，某个深夜突然出现的高消耗，可能意味着有异常脚本在运行或遭到攻击）。
消耗分布环形图或堆叠柱状图：
- 按模型分布：直观显示GPT-4、Claude-3、GPT-3.5-Turbo等不同模型各自消耗的Token占比。这直接关系到你的成本结构，如果发现昂贵的GPT-4被大量用于简单任务，就是优化的信号。
- 按项目/功能分布：显示“智能客服”、“代码生成”、“内容润色”等不同业务模块的消耗情况。帮助你识别哪些功能是“成本大户”，评估其投入产出比。
- 按用户/客户分布：在多租户场景下，此图表是成本分摊的核心依据。它能清晰指出高消耗用户，便于后续的套餐设计或资源沟通。

使用技巧：充分利用时间筛选器。对比“本周”与“上周”的数据，可以观察业务增长趋势；聚焦“过去24小时”，可以用于实时监控和故障排查。很多问题（如提示词工程失误导致循环调用）在时间序列图上会暴露无遗。

4.2 高级筛选与下钻分析：定位问题根源

仪表盘提供了宏观视角，而高级筛选和下钻功能则是你进行微观调查的“显微镜”。一个合格的token-usage-ui应该支持多维度组合筛选，例如：

时间范围+特定用户+特定模型
项目A+Token消耗大于1000的请求

通过这样的筛选，你可以精准地回答诸如：“客户B在过去一个月里，在代码审查功能上使用GPT-4花了多少钱？”这类具体问题。

下钻分析通常指在图表上点击某个数据点（例如环形图中“GPT-4”的区块），系统会自动筛选出所有使用GPT-4的记录，并展示其详情列表。你可以进一步查看每一条请求的具体时间、用户、消耗的Token数，甚至如果日志记录了请求ID，你还能回溯到原始的应用日志，查看当时的完整提示词和回复，这对于调试和优化提示词工程至关重要。

4.3 成本估算与报告导出：从数据到决策

Token数本身是技术指标，乘以单价才是成本。一个进阶功能是成本估算。系统可以内置或允许你配置各模型的单价（如GPT-4输入$0.03/1K tokens，输出$0.06/1K tokens）。配置好后，所有图表和报表都可以直接以货币单位（如美元）展示，这对非技术背景的决策者（如产品经理、财务）更加友好。

报告导出功能允许你将筛选后的数据以CSV或PDF格式导出。这对于定期生成周报、月报，或为客户生成用量账单非常有用。你可以设置一个定时任务，每周一自动生成上周的用量报告并发送到团队邮箱。

实操心得：在配置模型单价时，务必注意区分“输入Token”和“输出Token”的价格，以及不同上下文长度（如8K、32K、128K）模型的价差。如果系统不支持自动区分，你可能需要在记录数据时，就将估算成本计算好并存入cost字段。另外，注意价格可能随时变动，最好建立一个定期检查和更新单价配置的机制。

5. 生产环境进阶考量与优化

5.1 性能与数据量管理

随着时间推移，api_usage表的数据会快速增长。如果每天有数万次调用，几个月后数据量就会非常庞大，可能影响查询和仪表盘的加载速度。

索引策略：务必为常用的查询字段建立数据库索引，这能极大提升查询效率。至少应该为timestamp（时间范围查询）、user_id（按用户筛选）、project（按项目筛选）、model（按模型筛选）这几个字段创建索引。
```
-- 示例PostgreSQL索引创建语句 CREATE INDEX idx_usage_timestamp ON api_usage (timestamp); CREATE INDEX idx_usage_user_project ON api_usage (user_id, project);
```
数据分区/归档：对于时间序列数据，按时间（如按月）进行表分区是标准做法。旧数据（如三个月前）的查询频率低，可以将其迁移到归档表或更便宜的存储中，主表只保留热数据。一些监控系统会自带数据滚动清理（retention）策略。
聚合表：对于仪表盘上展示的日汇总、月汇总数据，可以提前计算好并存入另一张聚合表。这样在查询“本月总消耗”时，就不需要去扫描数千万条的明细记录，而是直接查询只有几十条记录的聚合表，性能提升立竿见影。

5.2 数据采集架构优化

如前所述，直接在业务代码中同步写数据库并非最佳实践。一个更健壮的架构是：

[你的AI应用] --> (发送日志事件) --> [消息队列，如Redis/RabbitMQ/Kafka] --> [日志消费服务] --> (批量写入) --> [监控数据库] | v [实时监控/报警]

消息队列：解耦业务逻辑和数据记录逻辑，即使监控数据库暂时不可用，也不会影响核心业务。
日志消费服务：一个独立的后台服务，从消息队列中消费日志，可以进行批量插入、数据清洗、格式转换，甚至实时计算初步聚合指标。
实时报警：消费服务可以同时将异常数据（如单次请求Token数超过1万、某一用户短时间内请求频率异常）发送到报警系统（如钉钉、Slack、PagerDuty），实现主动预警。

5.3 安全与权限控制

在生产环境中，监控数据可能包含敏感信息（如内部用户ID、项目名称、资源消耗模式）。

界面访问控制：token-usage-ui 的Web界面必须设置登录认证。简单的可以通过HTTP Basic Auth，或者集成到你现有的单点登录（SSO）系统中。绝对不要将其不加保护地暴露在公网上。
数据权限隔离：如果你的系统需要支持多团队或多客户查看，且数据需要隔离，那么简单的单数据库单表就不够了。你可能需要：
1. 在数据记录时增加一个tenant_id（租户ID）字段。
2. 修改token-usage-ui，使其在查询时强制带上当前登录用户所属租户的过滤条件。这通常需要修改后端API的查询逻辑。
3. 或者，为每个租户部署独立的数据库实例，但这会大大增加运维复杂度。更常见的做法是在应用层通过tenant_id进行逻辑隔离。

6. 常见问题排查与实战经验

在实际部署和使用 token-usage-ui 或其类似自建系统的过程中，我遇到过不少典型问题，这里总结一下，希望能帮你避坑。

问题1：仪表盘图表不显示数据或显示异常。

排查步骤：
1. 检查数据注入：首先确认你的应用是否成功将数据写入数据库。直接连上数据库，执行SELECT COUNT(*) FROM api_usage;和SELECT * FROM api_usage ORDER BY timestamp DESC LIMIT 5;，看看是否有近期数据，字段值是否正确。
2. 检查时间筛选器：这是最常见的原因。确认仪表盘左上角的时间范围筛选器是否设置正确，是否覆盖了你数据的时间段。尝试选择“所有时间”看看。
3. 检查前端控制台：打开浏览器的开发者工具（F12），切换到“网络(Network)”标签，刷新页面，查看加载图表数据的API请求（通常是/api/usage/stats之类的）。看看请求是否成功（状态码200），以及返回的JSON数据是否为空或格式错误。
4. 检查后端日志：查看 token-usage-ui 后端容器的日志docker logs token-usage-ui，看是否有数据库连接错误或查询SQL语法错误。

问题2：查询速度非常慢，尤其是选择长时间范围时。

原因与解决：
- 缺乏索引：如上文所述，为关键查询字段添加索引是首要任务。
- 数据量过大：考虑实施数据分区和归档策略。对于历史数据的查询，可以引导用户使用导出的聚合报告，而非在交互式仪表盘上查询全量明细。
- 聚合查询复杂：检查后端是否在每次请求时都进行复杂的实时聚合计算。对于固定的聚合视图（如日报表），可以改为定时任务预计算。

问题3：估算的成本与实际云账单有出入。

原因分析：
1. 价格未及时更新：LLM API价格，特别是促销价或谈判价，可能与你配置的默认单价不同。确保你配置的单价准确。
2. 未计入其他费用：你的监控可能只记录了主要文本模型的Token费用，但云账单可能还包括了：图片生成（DALL-E）费用、语音合成（TTS）费用、文件处理费用、以及额外的网络流量或API请求次数费用。
3. 数据丢失或重复：在数据采集、传输过程中，可能存在少量记录丢失或重复，导致统计偏差。建议定期（如每周）将系统统计的总Token数与云服务商控制台提供的用量统计进行对账。

问题4：如何监控非OpenAI的模型？

token-usage-ui 的核心是数据模型，它不关心数据来自哪里。只要你能从 Anthropic Claude、Google Gemini、Azure OpenAI、甚至是本地部署的 Llama 等模型的API响应中提取出prompt_tokens和completion_tokens（或等效信息），并以相同的格式写入数据库，它就能进行统一监控。你甚至可以为不同供应商的模型定义统一的model字段命名规范，如claude-3-opus-20240229、gemini-1.5-pro。

一个重要的实战经验：从第一天就开始记录。不要等到成本失控时才想起来要监控。在项目初期，即使数据量很小，建立这套监控流程也能帮助你养成关注成本的习惯，并为后续的容量规划、定价策略提供宝贵的历史数据基线。你可以从一个简单的SQLite数据库和最基本的每日总消耗图表开始，随着业务复杂度的提升，再逐步演进到更完整的架构。

查看全文

http://www.jsqmd.com/news/775700/