当前位置: 首页 > news >正文

看透微突发:利用 INT 技术实现交换机队列级的实时拥塞告警

在 AI 大模型训练和智算中心(AIDC)的建设中,基于 RDMA 技术的 RoCEv2 网络已成为高性能通信的标准。然而,网络中的“微突发”(Micro-burst)流量常常导致难以察觉的纳秒级拥塞,进而引发丢包严重拖慢模型训练效率。

为了彻底解决“网络黑盒”问题,星融元推出了 EasyRoCE-CMA(拥塞监控与告警) 工具。不同于传统监控,它以“纳秒级精度”和“数据自述”为核心,为 AI 时代的高性能网络提供了全新的调优视角。

技术突破:从“被动查询”到“主动自述”

传统的网络监控模式(如 SNMP Pull 或 Syslog Push)在处理高速 AI 流量时显得捉襟见肘:

  • Pull 模式:依赖服务器定期轮询,实时性受限于间隔时间,且高频采集会增加系统负担。
  • Push 模式:虽然实时性较强,但上报的信息通常是孤立的事件,难以复原完整的流量路径。

INT(带内网络遥测)技术则实现了革命性的转变:

  • 数据包即探针:让业务报文在转发过程中“自行记录”经过的每一台交换机的 ID、时延和拥塞状态。
  • 纳秒级实时性:由交换机底层芯片在转发数据平面直接填充元数据,最高支持纳秒级精度,能够完美捕捉瞬间发生的微突发问题。

核心能力:全维度捕获异常流量

EasyRoCE-CMA 并非盲目采集,而是通过两个核心机制精准定位网络瓶颈:

1. HDC(高延迟捕获)

识别“慢节点” 交换机会监控每一个报文,一旦时延超过用户设定的阈值,便会生成 HDC 报文。它能携带累计时延和丢包数量,帮助工程师一眼看穿延迟的根本原因。

2. BDC(缓冲区丢包捕获)

复现“丢包现场” 当缓冲区溢出导致丢包时,交换机会截取原始报文的前 150 字节连同设备元数据打包发送给 CMA。通过识别节点 ID 和 QP(Queue Pair)队列信息,工程师可以迅速优化缓冲区配置。

CMA 主要界面示例

CMA 本次发布的1.0版本主要包含以下几个功能界面。

CMA 首页

CMA 首页可以通览所有交换机的网络拥塞和丢包状态,默认情况下,CMA在5分钟内收到某个交换机的HDC/BDC报文,监控状态一栏相应状态会显示变红。

CMA 配置

首页点击交换机名称进入该设备的配置面板,进入该页面时,CMA会实时从交换机同步 INT 配置的开关和具体参数情况,如需修改编辑参数先要关闭 CMA 开关。

CMA 监控 – 全局监控

CMA 首页点击全局监控按钮后可在一个页面上查看被监控的所有交换机发出最近1000条 HDC 和 BDC 报文信息,其中包含报文相关的上下行设备和该报文所关联的业务报文详情。

CMA 监控 – 设备详情

CMA 首页点击设备所在行会展示指定设备上所有接口,以及接口上所有8个队列的拥塞/丢包状态,此表下方附有该交换机发出的所有 BDC/HDC 报文详情。

http://www.jsqmd.com/news/269448/

相关文章:

  • Python系列Bug修复|如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘httpx’ 问题
  • 支付宝消费券回收有妙招,闲置福利秒变现金! - 京顺回收
  • 颠覆与重构:AI赋能的DevSecOps新范式
  • 跨越行业边界:企业如何精准挑选可观测性平台
  • Python系列Bug修复|如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘typer’ 问题
  • AI测试工具:2026年软件测试工程师的变革性武器库
  • 预防性维护计划、工单管理、设备生命周期跟踪——正是企业资产管理(EAM)系统的核心功能模块
  • 2026年职场新宠:AI产品经理!未来五年黄金职业,岗位需求激增!
  • 基于 YOLOv8 的常见鸟类智能识别系统实战|从数据集到可视化应用的完整落地方案
  • Python系列Bug修复|如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘click’ 问题
  • 录入每日三餐饮食,识别热量和营养成分,对比每日推荐摄入量,给出多吃蔬菜/少盐的精准建议。
  • 基于 YOLOv8 的反光衣智能检测系统设计与实现—从数据集构建到 PyQt5 可视化部署的完整实践
  • Glary Utilities v6.37.0.41 电脑系统优化清理神器
  • 降本增效的终极实践:企业级智能体开发平台在人力资源数字化中的场景落地
  • day153—回溯—子集(LeetCode-78)
  • Python系列Bug修复|如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘websockets’ 问题
  • Fastapi全面教程:常用 API 串联与实战指南
  • 【图像去噪】基于均值+中值+软硬阙值小波变换图像去噪附Matlab代码
  • 2026 年 1 月环氧地坪漆厂家推荐排行榜,环氧彩砂自流平,防静电/水性/室内/车间/车库环氧地坪漆,专业施工与持久耐磨品质之选 - 企业推荐官【官方】
  • 2026深圳GEO服务商评测指南:技术实力与实战效果双维度解析
  • 完整教程:专题:2025年脑机接口产业蓝皮书:市场规模、专利技术、投融资与临床应用|附40+份报告PDF、数据、可视化模板汇总下载
  • 基于 YOLOv8 的猪只行为智能识别系统实践[目标检测完整源码]
  • 如何解决 Error Get “https://registry-1.docker.io/v2/”: dial tcp xxx.xx.1xx:443: connect: connection time
  • AI 写代码越快越危险?破解“高产低质”困局,这一步至关重要
  • 基于 YOLOv8 的茶叶病害智能识别系统[目标检测完整源码]
  • 别把 Cursor 只当代码补全工具!这样做,让 AI 真正读懂你的项目架构
  • Python系列Bug修复|如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘trio’ 问题
  • 【水果分类】基于计算机视觉和前馈神经网络自动水果分类系统附Matlab代码
  • Python系列Bug修复|如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘aiohttp’ 问题
  • 2026年1月电动搬运车厂家推荐排行榜,四轮电动搬运车,1~10吨电动搬运车,高效搬运解决方案优选指南 - 企业推荐官【官方】