当前位置: 首页 > news >正文

数据库集群中的bond1接口出现网络丢包

1、故障概述
OCP主机配置了NFS服务,通过万兆的bond1接口,将NFS共享给数据库集群中的所有节点。2025年12月开始,在数据库全备期间,OCP主机的bond1接口,经常出现网络丢包的告警信息。
本文主要描述故障的分析过程,及给出相关的建议。

 

2、故障分析及解决过程

2.1 备份过程中,网络丢包的告警信息,如图所示。

image

     告警对象为192.168.2.20,也即bond1接口。在4点3分左右开始,出现网络丢包现象,至4点5分左右结束。

2.2 分析OSW日志,截取04:00 和04:08 这两个时间点的网口相关的性能数据,如下所示:

zzz ***Wed Feb 4 04:00:07 CST 2026 

3: enp133s0f1: <BROADCAST,MULTICAST,SLAVE,UP,LOWER_UP> mtu 1500 qdisc mq master bond1 state UP group default qlen 1000

    link/ether e8:eb:d3:db:5c:f1 brd ff:ff:ff:ff:ff:ff

    RX: bytes  packets  errors  dropped overrun mcast  

    69356157695868 77343211876 1       692498  0       4085767

    RX errors: length   crc     frame   fifo    missed

               0        1       0       0       0      

    TX: bytes  packets  errors  dropped carrier collsns

    39133028360491 58745036728 0       0       0       0      

    TX errors: aborted  fifo   window heartbeat transns

               0        0       0       0       3              

8: enp134s0f1: <BROADCAST,MULTICAST,SLAVE,UP,LOWER_UP> mtu 1500 qdisc mq master bond1 state UP group default qlen 1000

    link/ether e8:eb:d3:db:5c:f1 brd ff:ff:ff:ff:ff:ff

    RX: bytes  packets  errors  dropped overrun mcast  

    295124655984 198756905 0       8270    0       64086  

    RX errors: length   crc     frame   fifo    missed

               0        0       0       0       0      

    TX: bytes  packets  errors  dropped carrier collsns

    41825457104 33116988 0       0       0       0      

    TX errors: aborted  fifo   window heartbeat transns

               0        0       0       0       5     

11: bond1: <BROADCAST,MULTICAST,MASTER,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000

    link/ether e8:eb:d3:db:5c:f1 brd ff:ff:ff:ff:ff:ff

    inet 192.168.2.20/24 brd 192.168.2.255 scope global bond1

       valid_lft forever preferred_lft forever

    inet6 fe80::eaeb:d3ff:fedb:5cf1/64 scope link

       valid_lft forever preferred_lft forever

    RX: bytes  packets  errors  dropped overrun mcast  

    69651282352618 77541968786 1       700768  0       4149850

    RX errors: length   crc     frame   fifo    missed

               0        1       0       0       0      

    TX: bytes  packets  errors  dropped carrier collsns

    39174853819909 58778153724 0       1       0       0      

    TX errors: aborted  fifo   window heartbeat transns

               0        0       0       0       2       

                            

zzz ***Wed Feb 4 04:08:52 CST 2026                   

3: enp133s0f1: <BROADCAST,MULTICAST,SLAVE,UP,LOWER_UP> mtu 1500 qdisc mq master bond1 state UP group default qlen 1000

    link/ether e8:eb:d3:db:5c:f1 brd ff:ff:ff:ff:ff:ff

    RX: bytes  packets  errors  dropped overrun mcast  

    69475947183004 77425315290 1       701549  0       4089763

    RX errors: length   crc     frame   fifo    missed

               0        1       0       0       0      

    TX: bytes  packets  errors  dropped carrier collsns

    39136567364741 58750778131 0       0       0       0      

    TX errors: aborted  fifo   window heartbeat transns

               0        0       0       0       3      

8: enp134s0f1: <BROADCAST,MULTICAST,SLAVE,UP,LOWER_UP> mtu 1500 qdisc mq master bond1 state UP group default qlen 1000

    link/ether e8:eb:d3:db:5c:f1 brd ff:ff:ff:ff:ff:ff

    RX: bytes  packets  errors  dropped overrun mcast  

    295124658216 198756923 0       8270    0       64086  

    RX errors: length   crc     frame   fifo    missed

               0        0       0       0       0      

    TX: bytes  packets  errors  dropped carrier collsns

    41825459088 33117004 0       0       0       0      

    TX errors: aborted  fifo   window heartbeat transns

               0        0       0       0       5     

11: bond1: <BROADCAST,MULTICAST,MASTER,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000

    link/ether e8:eb:d3:db:5c:f1 brd ff:ff:ff:ff:ff:ff

    inet 192.168.2.20/24 brd 192.168.2.255 scope global bond1

       valid_lft forever preferred_lft forever

    inet6 fe80::eaeb:d3ff:fedb:5cf1/64 scope link

       valid_lft forever preferred_lft forever

    RX: bytes  packets  errors  dropped overrun mcast  

    69771071849414 77624072227 1       709819  0       4153846

    RX errors: length   crc     frame   fifo    missed

               0        1       0       0       0      

    TX: bytes  packets  errors  dropped carrier collsns

    39178392825852 58783895147 0       1       0       0      

    TX errors: aborted  fifo   window heartbeat transns

               0        0       0       0       2

针对以上信息进行汇总分析,各网络接口的丢包情况如下所示:

接口

传输方向

4点整

4点8分

累积丢失数据包(个数)

bond1

RX

700768

709819

9051

bond1

TX

1

1

0

enp133s0f1

RX

692498

701549

9051

enp133s0f1

TX

0

0

0

enp134s0f1

RX

8270

8270

0

enp134s0f1

TX

0

0

0

由于bond1接口是由enp133s0f1和enp134s0f1聚合而成,可以看出:bond1接口的网络丢包,全部来自于enp133s0f1网口。

 针对以上信息进行汇总分析,各网络接口的流量情况如下所示:

接口

传输方向

4点整

4点8分

累积传输数据包(个数)

bond1

RX

77541968786

77624072227

82103441

bond1

TX

58778153724

58783895147

5741423

enp133s0f1

RX

77343211876

77425315290

82103414

enp133s0f1

TX

58745036728

58750778131

5741403

enp134s0f1

RX

198756905

198756923

18

enp134s0f1

TX

33116988

33117004

16

可以看出:bond1接口传输的网络包,全部来自于enp133s0f1网口,而enp134s0f1网口几乎空闲。

2.3 分析bond1接口的bond策略,如下所示。

#cat /proc/net/bonding/bond1

Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)

 

Bonding Mode: IEEE 802.3ad Dynamic link aggregation

Transmit Hash Policy: layer2 (0)

MII Status: up

MII Polling Interval (ms): 100

Up Delay (ms): 0

Down Delay (ms): 0

Peer Notification Delay (ms): 0

 

802.3ad info

LACP active: on

LACP rate: slow

Min links: 0

Aggregator selection policy (ad_select): stable

System priority: 65535

System MAC address: e8:eb:d3:db:5c:f1

Active Aggregator Info:

    Aggregator ID: 1

    Number of ports: 2

    Actor Key: 21

    Partner Key: 1729

    Partner Mac Address: f0:c8:b5:12:d8:e1

 

Slave Interface: enp133s0f1

MII Status: up

Speed: 25000 Mbps

Duplex: full

Link Failure Count: 1

Permanent HW addr: e8:eb:d3:db:5c:f1

Slave queue ID: 0

Aggregator ID: 1

Actor Churn State: none

Partner Churn State: none

Actor Churned Count: 0

Partner Churned Count: 0

details actor lacp pdu:

    system priority: 65535

    system mac address: e8:eb:d3:db:5c:f1

    port key: 21

    port priority: 255

    port number: 1

    port state: 61

details partner lacp pdu:

    system priority: 32768

    system mac address: f0:c8:b5:12:d8:e1

    oper key: 1729

    port priority: 32768

    port number: 32777

    port state: 61

 

Slave Interface: enp134s0f1

MII Status: up

Speed: 25000 Mbps

Duplex: full

Link Failure Count: 2

Permanent HW addr: e8:eb:d3:db:3c:81

Slave queue ID: 0

Aggregator ID: 1

Actor Churn State: none

Partner Churn State: none

Actor Churned Count: 0

Partner Churned Count: 0

details actor lacp pdu:

    system priority: 65535

    system mac address: e8:eb:d3:db:5c:f1

    port key: 21

    port priority: 255

    port number: 2

    port state: 61

details partner lacp pdu:

    system priority: 32768

    system mac address: f0:c8:b5:12:d8:e1

    oper key: 1729

    port priority: 32768

    port number: 9

    port state: 61

可以看出,当前bond1网口的bond配置策略为:Bonding模式:802.3ad(LACP);传输哈希策略:layer2。

使用layer2哈希策略时,如果源MAC和目标MAC固定,那么计算出的哈希值就会固定,导致所有流量都只走一个物理接口。

2.4 当出现网络丢包时,同样分析了操作系统的性能情况。CPU使用情况如下所示:

zzz ***Wed Feb 4 04:04:07 CST 2026

Linux 4.19.90-89.11.v2401.ky10.aarch64 (zzocp2)    02/04/26 _aarch64_ (64 CPU)

04:04:08     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle

04:04:09     all    5.15    0.00    5.81    0.34    0.66    1.28    0.00    0.00    0.00   86.75

04:04:09       0    0.00    0.00    0.00    0.00    1.00   33.00    0.00    0.00    0.00   66.00

04:04:09       1    2.02    0.00    2.02    0.00    1.01    1.01    0.00    0.00    0.00   93.94

04:04:09       2    0.00    0.00    3.00    1.00    1.00    1.00    0.00    0.00    0.00   94.00

04:04:09       3    3.00    0.00    1.00    0.00    1.00    1.00    0.00    0.00    0.00   94.00

04:04:09       4    6.06    0.00    1.01    0.00    1.01    0.00    0.00    0.00    0.00   91.92

04:04:09       5    4.95    0.00    4.95    0.00    0.99    1.98    0.00    0.00    0.00   87.13

04:04:09       6    4.95    0.00    1.98    0.00    0.99    0.99    0.00    0.00    0.00   91.09

04:04:09       7    0.00    0.00    2.97    0.00    0.99   14.85    0.00    0.00    0.00   81.19

04:04:09       8    3.03    0.00    0.00    0.00    0.00   15.15    0.00    0.00    0.00   81.82

04:04:09       9    1.00    0.00    3.00    0.00    1.00   10.00    0.00    0.00    0.00   85.00

04:04:09      10    4.00    0.00    2.00    0.00    1.00    1.00    0.00    0.00    0.00   92.00

04:04:09      11    2.00    0.00    4.00    1.00    1.00    0.00    0.00    0.00    0.00   92.00

04:04:09      12    1.98    0.00    4.95    0.00    0.99    0.00    0.00    0.00    0.00   92.08

04:04:09      13    6.00    0.00    1.00    0.00    1.00    0.00    0.00    0.00    0.00   92.00

04:04:09      14    5.00    0.00    2.00    0.00    1.00    0.00    0.00    0.00    0.00   92.00

04:04:09      15    9.00    0.00    2.00    0.00    1.00    0.00    0.00    0.00    0.00   88.00

04:04:09      16    2.02    0.00    4.04    0.00    0.00    0.00    0.00    0.00    0.00   93.94

04:04:09      17    7.92    0.00    5.94    0.00    0.99    0.00    0.00    0.00    0.00   85.15

04:04:09      18    8.08    0.00    2.02    1.01    0.00    0.00    0.00    0.00    0.00   88.89

04:04:09      19    5.00    0.00    6.00    0.00    1.00    0.00    0.00    0.00    0.00   88.00

04:04:09      20   32.32    0.00    4.04    0.00    1.01    0.00    0.00    0.00    0.00   62.63

04:04:09      21    2.97    0.00   10.89    0.00    0.99    0.99    0.00    0.00    0.00   84.16

04:04:09      22    2.02    0.00    8.08    1.01    0.00    0.00    0.00    0.00    0.00   88.89

04:04:09      23    2.02    0.00    8.08    3.03    0.00    0.00    0.00    0.00    0.00   86.87

04:04:09      24    5.05    0.00    7.07    1.01    0.00    0.00    0.00    0.00    0.00   86.87

04:04:09      25    1.98    0.00    2.97    0.00    0.99    0.00    0.00    0.00    0.00   94.06

04:04:09      26    3.00    0.00    2.00    0.00    1.00    0.00    0.00    0.00    0.00   94.00

04:04:09      27    0.99    0.00   12.87    1.98    0.99    0.00    0.00    0.00    0.00   83.17

04:04:09      28    6.00    0.00   10.00    0.00    1.00    0.00    0.00    0.00    0.00   83.00

04:04:09      29    3.00    0.00    4.00    0.00    1.00    0.00    0.00    0.00    0.00   92.00

04:04:09      30   33.66    0.00    3.96    0.00    0.99    0.00    0.00    0.00    0.00   61.39

04:04:09      31    2.97    0.00    3.96    0.00    0.99    0.00    0.00    0.00    0.00   92.08

04:04:09      32    8.16    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00   91.84

04:04:09      33   32.67    0.00    0.00    0.00    0.99    0.00    0.00    0.00    0.00   66.34

04:04:09      34    3.00    0.00    5.00    0.00    1.00    0.00    0.00    0.00    0.00   91.00

04:04:09      35    7.00    0.00    4.00    0.00    1.00    0.00    0.00    0.00    0.00   88.00

04:04:09      36   34.00    0.00   11.00    1.00    0.00    1.00    0.00    0.00    0.00   53.00

04:04:09      37    4.95    0.00   12.87    0.00    0.99    0.00    0.00    0.00    0.00   81.19

04:04:09      38    3.00    0.00    8.00    1.00    1.00    0.00    0.00    0.00    0.00   87.00

04:04:09      39    4.95    0.00    2.97    0.99    0.99    0.00    0.00    0.00    0.00   90.10

04:04:09      40    5.05    0.00    6.06    0.00    0.00    0.00    0.00    0.00    0.00   88.89

04:04:09      41    2.00    0.00    7.00    0.00    1.00    0.00    0.00    0.00    0.00   90.00

04:04:09      42    7.00    0.00    5.00    0.00    0.00    0.00    0.00    0.00    0.00   88.00

04:04:09      43    5.00    0.00    5.00    0.00    1.00    0.00    0.00    0.00    0.00   89.00

04:04:09      44    3.00    0.00    7.00    1.00    1.00    0.00    0.00    0.00    0.00   88.00

04:04:09      45    4.00    0.00    6.00    1.00    1.00    0.00    0.00    0.00    0.00   88.00

04:04:09      46    7.00    0.00    5.00    0.00    1.00    0.00    0.00    0.00    0.00   87.00

04:04:09      47    4.00    0.00   10.00    0.00    1.00    0.00    0.00    0.00    0.00   85.00

04:04:09      48    0.00    0.00   24.00    2.00    0.00    0.00    0.00    0.00    0.00   74.00

04:04:09      49    4.95    0.00    9.90    0.99    0.99    0.00    0.00    0.00    0.00   83.17

04:04:09      50    3.00    0.00   17.00    0.00    0.00    0.00    0.00    0.00    0.00   80.00

04:04:09      51    6.00    0.00   23.00    1.00    0.00    0.00    0.00    0.00    0.00   70.00

04:04:09      52    1.01    0.00   10.10    1.01    0.00    0.00    0.00    0.00    0.00   87.88

04:04:09      53    0.00    0.00   16.83    0.99    0.99    0.00    0.00    0.00    0.00   81.19

04:04:09      54    0.00    0.00   11.00    0.00    0.00    0.00    0.00    0.00    0.00   89.00

04:04:09      55    0.00    0.00    5.05    0.00    0.00    0.00    0.00    0.00    0.00   94.95

04:04:09      56    1.00    0.00    8.00    1.00    0.00    0.00    0.00    0.00    0.00   90.00

04:04:09      57    0.00    0.00   11.88    0.00    0.99    0.00    0.00    0.00    0.00   87.13

04:04:09      58    3.03    0.00    1.01    0.00    0.00    0.00    0.00    0.00    0.00   95.96

04:04:09      59    0.00    0.00    2.00    0.00    0.00    0.00    0.00    0.00    0.00   98.00

04:04:09      60    0.99    0.00    0.00    0.00    0.99    0.00    0.00    0.00    0.00   98.02

04:04:09      61    2.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00   98.00

04:04:09      62    0.00    0.00    1.00    0.00    0.00    0.00    0.00    0.00    0.00   99.00

04:04:09      63    1.00    0.00    4.00    0.00    0.00    0.00    0.00    0.00    0.00   95.00

CPU使用率较低,没有出现网络软中断导致某个CPU核完全耗尽的情况。

2.5  检查网口缓冲区大小,如下所示:

net.core.rmem_default = 16777216

net.core.rmem_max = 16777216

net.core.wmem_default = 16777216

net.core.wmem_max = 16777216

当前已经设置为16MB。

2.6 结合现场人员的描述:只有在发起数据库全备期间,才会出现网络丢包的情况。

image

在04:04分,瞬息间的流量为1.3GB,此时正是流量丢包的时间点。

2.7  初步结论:网络负载分配不均衡,导致单网口过载。

建议:(1)、更改交换机的传输哈希策略,尝试使用更分散的哈希策略,保证负载均衡。(2)、如果负载均衡后,仍然出现丢包现象,考虑将网口缓冲区大小调整至64M。

2.8  在主机侧,修改了bond配置的哈希策略,修改为: xmit_hash_policy=layer3+4。 但交换机侧各种原因,没办法好好配合,最终导致负载均衡仍然不符合预期。

2.9 短期内,没办法让两个网口的流量达到负载均衡,只能先尝试建议2中的方法。

(1).增大ring buffer
# 查看enp133s0f1的队列配置
ethtool -g enp133s0f1

# 临时调大 RX Ring Buffer,立即生效
ethtool -G enp133s0f1 rx 8192 tx 8192

 

(2).增大TCP缓冲区
# 查看当前值
sysctl -a |grep "net.core.wmem"
sysctl -a |grep "net.core.rmem"

##修改
vi /etc/sysctl.conf

net.core.wmem_max = 134217728
net.core.rmem_max = 134217728
net.core.wmem_default = 134217728
net.core.rmem_default = 134217728

#生效
sysctl -p

2.10 调整完缓冲区大小后,多次发起数据库全备操作,没有出现告警信息。  分析备份期间的OSW日志,数据0丢包。

至此,问题得以解决。

http://www.jsqmd.com/news/593288/

相关文章:

  • 实战指南:用快马生成altium designer数据采集板卡全流程设计项目
  • RePKG:5个高效技巧助你掌握Wallpaper Engine资源处理与格式转换
  • 第28课:Qt 读系统时钟并响应中断,让时间界面和板级事件同时在线
  • 免费游戏串流平台Sunshine:5步搭建你的专属云端游戏服务器
  • C语言高效移除数组元素的三大实战策略
  • 美团LongCat-2601:5600亿参数MoE模型解锁AI超强推理能力
  • 环模式饲料制粒机设计【农业机械】【论文+14张CAD图纸+proe三维+答辩稿】
  • 5大核心功能深度解析:AltDrag如何重新定义Windows窗口管理效率
  • 获取注解信息
  • 解锁Koikatu全部潜能的6个专业步骤:KK-HF Patch增强指南
  • ai赋能:让快马智能生成优化与测试完备的c语言排序算法库
  • 第29课:先把屏幕做得愿意被触摸,用 Qt 图形演示点亮应用感
  • MySQL 很实用的 SQL 语句清单(排障与日常运维)
  • 基于Matlab Simulink平台的柔性直流输电系统研究与优化:四端网络模型与四端换流器控...
  • 京东抢购自动化:用Python脚本实现毫秒级响应的高效抢购方案
  • 5分钟免费指南:如何将旧手机变成Linux高清摄像头
  • MySQL 常用业务 SQL
  • 用Python模拟随机游走:从一维到三维,直观理解马尔可夫链的常返性
  • 构建现代化电商平台:SpringBoot后端与Vue前端的全栈实践指南
  • Sub-Agent 与 Agent Team 的本质区别
  • 5分钟搞定抖音音频提取:免费高效的douyin-downloader终极指南
  • AI for Science:化学生物学革命,从药物设计到蛋白质工程的全面解析
  • 电动汽车电动真空助力制动系统模型:一场制动系统的静默革命
  • 终极音乐解析方案:music-api如何免费打通四大平台音频资源壁垒
  • Maven项目引入本地JAR包的三种正确方式对比
  • YimMenu终极指南:GTA5安全增强与功能定制完全教程
  • claw-code 源码详细分析:`reference_data` JSON 快照——大型移植里「对照底稿」该怎么治理与演进?
  • PowerToys Image Resizer:三步解决全场景图片批量处理难题
  • 如何快速配置MangoHud快捷键:从零开始的游戏性能监控终极指南
  • AtCoder Beginner Contest 452(ABC452)