当前位置: 首页 > news >正文

【AI白皮书】AI可观测

8.1 AI可观测

8.1.1 什么是AI可观测

AI应用具有非确定性,即便是相同的提示,在不同次的运行中也可能产生不同的输出。如果没有可观测,在发生幻觉虚假错误等严重问题时根本无从查起。相反,一个好用的可观测工具会记录每一次的提示与响应、追踪使用模式,并标记异常。AI可观测是确保AI应用高效稳定安全运行的基础能力。

8.1.2 可观测 vs 监控:从“是什么”到“为什么”

监控关注“什么”:比如API响应时间、错误率、请求吞吐量和Token使用量等指标。

可观测性探究“为什么”:比如一个聊天机器人的回答不正确且耗时过长,监控可能只会显示错误率上升或延迟过高,但可观测能揭示为什么:可能是一次长时间的RAG请求最终得到了错误的召回,导致模型给出不准确的答案。

AI应用的每一次请求,都可以被弯针的追溯,包括调用工具的出入参、发送给大模型的具体提示词、任何中间步骤(如调用数据库或其他API),以及最终收到的输出。可观测工具就可以提供极其丰富的排查数据和上下文,帮助定位问题的根因。

8.1.3 AI可观测应对的核心挑战

性能与可靠性问题:大模型是资源密集型的,延迟峰值和瓶颈时有发生。

成本问题:许多大模型服务按Token使用量收费,若无控制,成本可能意外飙升。

质量问题:大模型的可能输出从训练数据中继承偏见或有害内容,也很可能产生幻觉。

8.1.4 AI可观测解决方案的关键能力

端到端全链路追踪:提供端到端的日志采集和链路追踪,可视化请求在整个AI应用中的执行路径。

全栈可观测:包含应用、AI网关、推理引擎可观测3个维度。

自动化评估功能:通过引入评估Agent,对应用和模型的输入输出进行自动化的评估,检测幻觉、不一致或答案质量下降等问题。

8.2 端到端全链路追踪

一个典型的LLM应用架构可能包含用户终端、认证模块、会话管理、对话服务、大模型路由、流程编排等。需要具备3项可观测能力:标准化的数据语义规范、低成本高质量的数据采集、端到端全链路追踪。

8.2.1 端到端全链路追踪的实现方式

面向AI应用的领域化Trace语义

基于OpenTelemetry的高质量数据采集

标准化协议

8.2.2 核心技术路径

1、链路插桩技术

Python探针,Monkey Patch

Java探针,字节码增强技术。

Go探针,编译时插桩技术。

多语言兼容,其他语言通过OpenTelemetry开源框架支持。

2、链路采集与加工

数据采集策略

流式场景优化

3、LLM Trace查询与分析

全链路透视

高级过滤

智能诊断

8.3 全栈可观测:应用可观测

8.3.1 AI原生应用开发的痛点

工具选择盲区、错误排除困难、Token消耗黑洞、循环调用陷阱。

8.3.2 AI原生应用可观测需要具备哪些能力

零代码接入、可视化工具选择过程、精准故障定位、Token成本分析、端到端链路追踪。

8.3.3 演示场景架构

使用LangChain框架构建一个Agent,大模型使用Qwen Turbo。SLS MCP服务器通过SLS HTTP OpenAPI访问日志的接口,完成日志分析请求。LangChain Agent与MCP服务器产生的观测数据会自动采集到可观测平台中。

8.3.4 场景演示

1、启动SLS MCP服务器

2、启动Langchain Agent程序

3、Agent观测

4、MCP观测

8.4 全栈可观测:AI网关可观测

8.4.1 观测场景:AI组件的多维可观测需求

1、性能与稳定性监控:保障AI应用的高可用

关键性能指标:QPS、请求成功率、响应时间、流式与非流式请求分布。

2、资源消耗与成本分析:实现精细化成本管控

Token消耗数/s、按模型维度的Token使用统计、按消费者维度的Token使用统计。

3、安全与合规审计:防范数据泄露与内容风险

内容安全拦截日志、风险类型统计、风险消费者统计。

4、治理策略执行追踪:确保限流、缓存、Fallback有效落地

限流统计、缓存命中情况、Fallback执行路径。

5、多租户与权限治理:实现调用者的精细化管理

消费者身份识别、消费者级指标统计、异常消费者检测。

8.4.2 观测实践:基于AI网关的可观测体系构建

1、观测数据:统一日志与指标

2、可视化监控:多维度仪表盘

3、深度分析:基于日志查询与SQL分析

4、智能告警与自动化响应

5、成本优化与治理闭环

8.5 全栈可观测:推理引擎可观测

推理引擎,是AI算法和软硬件系统之间的桥梁,其主要功能包括优化LLM的性能以确保快速准确的推理、管理GPU内存等硬件资源、提供分布式和可扩展能力等。常见的推理引擎有vLLM、SGLang等。

8.5.1 推理引擎需要观测什么

推理引擎vLLM的整体架构如下图:

以下是API Server、模型输入输出、推理过程、推理引擎状态4个维度常见的观测项和含义:

8.5.2 推理引擎需可观测的实践

首Token时间(TTFT)对客户体验比较重要。如果观测到比较大的TTFT,可以从提示词长度、并发请求排队、KV Cache使用率等因素去优化。

参考资料:

https://developer.aliyun.com/ebook/8479

http://www.jsqmd.com/news/188305/

相关文章:

  • 基于vLLM加速的腾讯混元OCR API服务部署实践(支持高并发请求)
  • CSS是如何绘制颜色的
  • 无需级联!腾讯混元OCR端到端架构让文档问答和字幕提取更高效
  • 本科论文迷茫终结者?深度测评一款AI工具如何拆解万字写作难题
  • PubLayNet布局分析集成:HunyuanOCR是否包含版面分析
  • 遵守GDPR规范使用HunyuanOCR:个人数据识别与脱敏策略建议
  • 当AI科研助手悄然降临:揭秘新一代智能工具如何重塑本科论文写作体验
  • 状态空间模型解锁视频世界模型长期记忆
  • EducationExam考试试卷数字化:客观题主观题分别处理
  • CustomsDeclaration报关单据处理:跨境贸易效率提升工具
  • SmartCity智慧城市中枢:多源OCR数据汇聚形成城市知识图谱
  • RestaurantMenu菜单翻译:HunyuanOCR支持跨国餐饮连锁
  • 对比Tesseract与PaddleOCR:为何HunyuanOCR成为新一代OCR首选?
  • CF2163D2-Diadrash (Hard Version)
  • 基于SVG的双馈风机并网模型实验与仿真
  • 私有化部署价值凸显:HunyuanOCR满足企业数据不出域需求
  • 导师严选2025 AI论文平台TOP9:专科生毕业论文必备测评
  • Matlab代码:微电网的优化调度,利用Yalmip/Cplex求解器求解,程序注释详细,带说明文档
  • 词典约束是否存在?测试HunyuanOCR对专业术语的识别能力
  • 现在每天下午六点,我准时关了 IDEA,开车穿过 4 公里的晚高峰,20 分钟就到小区。一、去年那个手忙脚乱的夏天,我差点错过儿子的成长去年 5 月 23 号,老婆生了,是个儿子,我在产房陪产,当1
  • 如何定制HunyuanOCR的识别字段?自定义模板配置方法介绍
  • BioMedical文献扫描:HunyuanOCR处理专业术语的表现
  • 现在1每天下午六点,我准时关了 IDEA,开车穿过 4 公里的晚高峰,20 分钟就到小区。一、去年那个手忙脚乱的夏天,我差点错过儿子的成长去年 5 月 23 号,老婆生了,是个儿子,我在产房陪产1
  • VRTraining虚拟培训:操作手册文字嵌入三维场景
  • ACPI!ACPIBuildDeviceRequest函数分析和ACPI!ACPIBuildDeviceDpc函数的关系
  • 沃尔玛购物卡回收平台哪家强?实测后推荐这三家 - 京顺回收
  • Bootstrap的CSS样式使用介绍
  • 使用Jupyter Notebook运行1-界面推理-pt.sh脚本启动HunyuanOCR服务
  • HunyuanOCR与EasyOCR性能对比:速度、精度、资源占用三维评估
  • 脉脉AI创作者活动:聊聊AI时代技术人的真实出路