当前位置：首页 > news >正文

【AI白皮书】AI可观测

news 2026/3/26 21:26:56

8.1 AI可观测

8.1.1 什么是AI可观测

AI应用具有非确定性，即便是相同的提示，在不同次的运行中也可能产生不同的输出。如果没有可观测，在发生幻觉虚假错误等严重问题时根本无从查起。相反，一个好用的可观测工具会记录每一次的提示与响应、追踪使用模式，并标记异常。AI可观测是确保AI应用高效稳定安全运行的基础能力。

8.1.2 可观测 vs 监控：从“是什么”到“为什么”

监控关注“什么”：比如API响应时间、错误率、请求吞吐量和Token使用量等指标。

可观测性探究“为什么”：比如一个聊天机器人的回答不正确且耗时过长，监控可能只会显示错误率上升或延迟过高，但可观测能揭示为什么：可能是一次长时间的RAG请求最终得到了错误的召回，导致模型给出不准确的答案。

AI应用的每一次请求，都可以被弯针的追溯，包括调用工具的出入参、发送给大模型的具体提示词、任何中间步骤（如调用数据库或其他API），以及最终收到的输出。可观测工具就可以提供极其丰富的排查数据和上下文，帮助定位问题的根因。

8.1.3 AI可观测应对的核心挑战

性能与可靠性问题：大模型是资源密集型的，延迟峰值和瓶颈时有发生。

成本问题：许多大模型服务按Token使用量收费，若无控制，成本可能意外飙升。

质量问题：大模型的可能输出从训练数据中继承偏见或有害内容，也很可能产生幻觉。

8.1.4 AI可观测解决方案的关键能力

端到端全链路追踪：提供端到端的日志采集和链路追踪，可视化请求在整个AI应用中的执行路径。

全栈可观测：包含应用、AI网关、推理引擎可观测3个维度。

自动化评估功能：通过引入评估Agent，对应用和模型的输入输出进行自动化的评估，检测幻觉、不一致或答案质量下降等问题。

8.2 端到端全链路追踪

一个典型的LLM应用架构可能包含用户终端、认证模块、会话管理、对话服务、大模型路由、流程编排等。需要具备3项可观测能力：标准化的数据语义规范、低成本高质量的数据采集、端到端全链路追踪。

8.2.1 端到端全链路追踪的实现方式

面向AI应用的领域化Trace语义

基于OpenTelemetry的高质量数据采集

标准化协议

8.2.2 核心技术路径

1、链路插桩技术

Python探针，Monkey Patch

Java探针，字节码增强技术。

Go探针，编译时插桩技术。

多语言兼容，其他语言通过OpenTelemetry开源框架支持。

2、链路采集与加工

数据采集策略

流式场景优化

3、LLM Trace查询与分析

全链路透视

高级过滤

智能诊断

8.3 全栈可观测：应用可观测

8.3.1 AI原生应用开发的痛点

工具选择盲区、错误排除困难、Token消耗黑洞、循环调用陷阱。

8.3.2 AI原生应用可观测需要具备哪些能力

零代码接入、可视化工具选择过程、精准故障定位、Token成本分析、端到端链路追踪。

8.3.3 演示场景架构

使用LangChain框架构建一个Agent，大模型使用Qwen Turbo。SLS MCP服务器通过SLS HTTP OpenAPI访问日志的接口，完成日志分析请求。LangChain Agent与MCP服务器产生的观测数据会自动采集到可观测平台中。

8.3.4 场景演示

1、启动SLS MCP服务器

2、启动Langchain Agent程序

3、Agent观测

4、MCP观测

8.4 全栈可观测：AI网关可观测

8.4.1 观测场景：AI组件的多维可观测需求

1、性能与稳定性监控：保障AI应用的高可用

关键性能指标：QPS、请求成功率、响应时间、流式与非流式请求分布。

2、资源消耗与成本分析：实现精细化成本管控

Token消耗数/s、按模型维度的Token使用统计、按消费者维度的Token使用统计。

3、安全与合规审计：防范数据泄露与内容风险

内容安全拦截日志、风险类型统计、风险消费者统计。

4、治理策略执行追踪：确保限流、缓存、Fallback有效落地

限流统计、缓存命中情况、Fallback执行路径。

5、多租户与权限治理：实现调用者的精细化管理

消费者身份识别、消费者级指标统计、异常消费者检测。

8.4.2 观测实践：基于AI网关的可观测体系构建

1、观测数据：统一日志与指标

2、可视化监控：多维度仪表盘

3、深度分析：基于日志查询与SQL分析

4、智能告警与自动化响应

5、成本优化与治理闭环

8.5 全栈可观测：推理引擎可观测

推理引擎，是AI算法和软硬件系统之间的桥梁，其主要功能包括优化LLM的性能以确保快速准确的推理、管理GPU内存等硬件资源、提供分布式和可扩展能力等。常见的推理引擎有vLLM、SGLang等。

8.5.1 推理引擎需要观测什么

推理引擎vLLM的整体架构如下图：

以下是API Server、模型输入输出、推理过程、推理引擎状态4个维度常见的观测项和含义：

8.5.2 推理引擎需可观测的实践

首Token时间（TTFT）对客户体验比较重要。如果观测到比较大的TTFT，可以从提示词长度、并发请求排队、KV Cache使用率等因素去优化。

参考资料：

https://developer.aliyun.com/ebook/8479

查看全文

http://www.jsqmd.com/news/188305/

基于vLLM加速的腾讯混元OCR API服务部署实践（支持高并发请求）

CSS是如何绘制颜色的

无需级联！腾讯混元OCR端到端架构让文档问答和字幕提取更高效

本科论文迷茫终结者？深度测评一款AI工具如何拆解万字写作难题

PubLayNet布局分析集成：HunyuanOCR是否包含版面分析

遵守GDPR规范使用HunyuanOCR：个人数据识别与脱敏策略建议

当AI科研助手悄然降临：揭秘新一代智能工具如何重塑本科论文写作体验

状态空间模型解锁视频世界模型长期记忆

EducationExam考试试卷数字化：客观题主观题分别处理

CustomsDeclaration报关单据处理：跨境贸易效率提升工具

SmartCity智慧城市中枢：多源OCR数据汇聚形成城市知识图谱

RestaurantMenu菜单翻译：HunyuanOCR支持跨国餐饮连锁

对比Tesseract与PaddleOCR：为何HunyuanOCR成为新一代OCR首选？

CF2163D2-Diadrash (Hard Version)

基于SVG的双馈风机并网模型实验与仿真

私有化部署价值凸显：HunyuanOCR满足企业数据不出域需求

导师严选2025 AI论文平台TOP9：专科生毕业论文必备测评

Matlab代码：微电网的优化调度，利用Yalmip/Cplex求解器求解，程序注释详细，带说明文档

词典约束是否存在？测试HunyuanOCR对专业术语的识别能力

现在每天下午六点，我准时关了 IDEA，开车穿过 4 公里的晚高峰，20 分钟就到小区。一、去年那个手忙脚乱的夏天，我差点错过儿子的成长去年 5 月 23 号，老婆生了，是个儿子，我在产房陪产，当1

如何定制HunyuanOCR的识别字段？自定义模板配置方法介绍

BioMedical文献扫描：HunyuanOCR处理专业术语的表现

现在1每天下午六点，我准时关了 IDEA，开车穿过 4 公里的晚高峰，20 分钟就到小区。一、去年那个手忙脚乱的夏天，我差点错过儿子的成长去年 5 月 23 号，老婆生了，是个儿子，我在产房陪产1

VRTraining虚拟培训：操作手册文字嵌入三维场景

ACPI!ACPIBuildDeviceRequest函数分析和ACPI!ACPIBuildDeviceDpc函数的关系

沃尔玛购物卡回收平台哪家强？实测后推荐这三家 - 京顺回收

Bootstrap的CSS样式使用介绍

使用Jupyter Notebook运行1-界面推理-pt.sh脚本启动HunyuanOCR服务

HunyuanOCR与EasyOCR性能对比：速度、精度、资源占用三维评估

脉脉AI创作者活动：聊聊AI时代技术人的真实出路