当前位置：首页 > news >正文

Nginx报错111: Connection refused？别慌，5分钟排查upstream连接失败的保姆级指南

news 2026/6/16 9:08:20

Nginx报错111: Connection refused？5步精准定位upstream连接问题

凌晨三点，手机突然震动——监控系统发来告警：线上服务大面积报错。你揉揉眼睛打开电脑，Nginx错误日志里赫然躺着几十条connect() failed (111: Connection refused) while connecting to upstream。这种场景对运维工程师来说就像急诊科医生遇到突发抢救，需要快速判断病因并实施精准治疗。本文将带你建立一套系统化的排查思维框架，用五个关键步骤快速锁定问题根源。

1. 网络层基础检查：排除物理连接问题

任何upstream连接问题都应该从最底层的网络连通性开始排查。就像医生先检查病人的生命体征，我们需要确认基础通信是否正常。

第一步：验证端口可达性

# 测试upstream服务器端口是否开放 telnet 192.168.1.100 8080 nc -zv 192.168.1.100 8080

如果连接失败，可能是以下原因：

防火墙拦截（检查iptables/ufw配置）
安全组规则限制（云服务器需检查控制台配置）
网络ACL设置问题
物理网络故障

关键检查点：

在Nginx服务器执行traceroute确认路由可达
检查双方服务器的/etc/hosts文件，避免域名解析错误
云环境特别注意安全组入站/出站规则

提示：生产环境建议长期开启TCP keepalive，避免连接被中间设备断开：
upstream backend { server 192.168.1.100:8080; keepalive 32; }

2. 服务状态验证：确认upstream健康度

网络通畅后，需要确认后端服务本身是否正常运作。这就像确认病人的器官功能是否完好。

服务检查清单：

检查项	命令示例	正常表现
进程存活	`ps aux	grep java`
端口监听	`ss -tulnp \| grep 8080`	显示LISTEN状态
资源占用	`top -p $(pgrep -d, java)`	CPU/内存无异常
服务日志	`tail -f /var/log/service.log`	无异常错误

常见服务异常场景：

服务崩溃退出（检查OOM killer记录：dmesg | grep -i kill）
线程池耗尽（Java应用常见ThreadPoolExecutor拒绝）
数据库连接池满（检查连接池配置）
文件描述符耗尽（ulimit -n值过小）

# 快速检查系统资源限制 cat /proc/$(pgrep java)/limits

3. Nginx配置深度检查：揪出隐藏问题

当网络和服务都正常时，问题往往出在配置环节。就像药物治疗需要精确的剂量，Nginx配置也需要精准调校。

关键配置检查点：

upstream定义验证

upstream backend { # 错误的IP示例 # server 127.0.0.1:8080; # 正确配置 server 192.168.1.100:8080 weight=5; server 192.168.1.101:8080 backup; }

proxy_pass使用姿势

location /api/ { # 错误示例：缺少/ # proxy_pass http://backend; # 正确写法 proxy_pass http://backend/; proxy_set_header Host $host; }

超时参数优化

proxy_connect_timeout 3s; proxy_read_timeout 30s; proxy_send_timeout 30s;

配置检查工具推荐：

# 测试配置文件语法 nginx -t # 详细调试日志（调试后记得关闭） error_log /var/log/nginx/error.log debug;

4. 高级诊断工具：深入问题根源

对于复杂场景，需要更专业的诊断工具。这就像医院里的CT和MRI检查。

TCP连接状态分析：

# 查看所有活跃连接 ss -tnop # 跟踪TCP握手过程 tcpdump -i eth0 'port 8080 and tcp[tcpflags] & (tcp-syn|tcp-ack) != 0'

Nginx变量调试：

location /debug { return 200 "$remote_addr -> $upstream_addr status=$upstream_status"; }

内存泄漏检查：

# 查看Nginx worker内存占用 ps -eo pid,comm,rss | grep nginx

5. 典型场景实战案例

案例1：从单机迁移到集群的配置陷阱

- server 127.0.0.1:8080; + server backend-cluster.example.com:8080;

案例2：微服务架构下的常见问题

# Kubernetes环境正确配置示例 upstream product-service { server product-service.default.svc.cluster.local:80; }

案例3：长连接优化配置

upstream api { server 10.0.0.1:8000; keepalive 32; } server { location / { proxy_pass http://api; proxy_http_version 1.1; proxy_set_header Connection ""; } }

每次遇到Connection refused错误时，按照这五个步骤系统化排查，能快速定位绝大多数upstream连接问题。实际处理时建议保存一份检查清单，遇到报警时逐项核对。

查看全文

http://www.jsqmd.com/news/713734/