当前位置：首页 > news >正文

SSH连接被拒但Ping通？5步定位TCP监听与系统拦截根因

news 2026/7/14 13:41:05

1. 问题现象与典型误判陷阱

“SSH连不上，但ping得通”——这句话我过去三年里至少听过47次，每次都是深夜告急电话的开场白。它听起来像一个简单的网络连通性问题，实则是一道典型的“假阳性”诊断陷阱：ping通只证明ICMP协议层可达，而SSH依赖的是TCP 22端口的完整四层链路，中间任何一个环节卡住，都会让你在终端里反复输入ssh user@host，然后等来一句冰冷的Connection refused。这不是服务器宕机，也不是防火墙全盘拦截，而是服务本身没在监听、监听了但绑错了地址、或者被更隐蔽的策略挡在门外。

这个标题背后藏着三类典型用户：刚接手线上服务器的运维新人，以为“能ping就等于能连”；开发人员本地调试时突然失联，第一反应是重装OpenSSH；还有经验丰富的工程师，在CI/CD流水线里看到SSH step失败，却因日志缺失而陷入盲区。他们共同的痛点是：时间紧、权限有限、复现路径模糊。而最危险的误区，就是立刻重启sshd服务——这看似积极，实则可能覆盖关键日志、打乱连接状态、甚至触发安全策略的临时封禁。

关键词“SSH连接被拒”“服务器可Ping通”直指问题本质：传输层可达，应用层不可达。这意味着排查必须从TCP连接建立过程倒推：客户端发出SYN包→服务端是否收到→服务端是否响应SYN-ACK→客户端是否收到→后续三次握手是否完成→sshd进程是否真正监听并接受该连接。每一步都对应一个可验证的技术点，而不是靠“试试看”蒙答案。我见过太多人花两小时改iptables规则，最后发现只是sshd_config里写错了ListenAddress 127.0.0.1，导致它只监听回环地址，对外网请求彻底无视。

所以这篇指南不讲“如何安装SSH”，也不堆砌systemctl status sshd这种基础命令。它聚焦于真实生产环境中高频出现的5类根因：sshd进程未运行或异常退出、监听地址与端口配置错误、系统级防火墙（iptables/nftables）的显式拒绝、SELinux/AppArmor等强制访问控制的静默拦截、以及sshd自身认证机制触发的主动拒绝（如MaxStartups限制、AllowUsers白名单）。每一类都配以真实日志片段、可复现的模拟步骤、以及我踩过坑后总结的“三秒定位法”。

提示：本文所有命令均基于主流Linux发行版（Ubuntu 22.04/CentOS 8/RHEL 9），涉及的配置文件路径、日志位置、工具参数均经过实测验证。如果你用的是FreeBSD或OpenWrt，请自行对照其文档调整路径，核心排查逻辑完全通用。

2. 连接拒绝的本质：从TCP三次握手看sshd状态

要真正理解“Connection refused”，必须回到TCP协议底层。当客户端执行ssh user@host时，它首先尝试向目标IP的22端口发起TCP连接。如果返回Connection refused，说明客户端收到了RST（Reset）包——这是服务端明确拒绝连接的信号。RST包只会在一种情况下发出：目标端口上没有进程正在监听。注意，这里说的是“没有监听”，不是“监听了但拒绝认证”。后者会表现为连接成功建立（你看到密码提示符），然后才报错Permission denied。

所以第一步，永远不是查日志，而是确认sshd进程是否真正在监听22端口。很多人跳过这步，直接翻sshd_config，结果配置没错，但sshd根本没跑起来。我建议用ss命令而非netstat，因为前者更轻量、输出更结构化，且在现代系统中默认预装：

# 查看所有监听TCP端口，过滤22端口 ss -tlnp | grep ':22'

正常输出应类似：

LISTEN 0 128 *:22 *:* users:(("sshd",pid=1234,fd=3))

其中关键字段解读：

LISTEN：状态为监听中
0 128：全连接队列长度（syn queue + accept queue），128是默认值，足够应付常规负载
*:22：监听所有IPv4地址的22端口（*表示0.0.0.0）
users:(("sshd",pid=1234,fd=3))：进程名、PID、文件描述符号，这是黄金证据

如果这条命令无输出，说明sshd根本没在监听。此时分两种情况：

sshd进程完全不存在：执行ps aux | grep sshd，若只有grep进程自己，说明服务未启动。运行sudo systemctl start sshd（或sudo service ssh start）即可。
sshd进程存在但未监听22端口：常见于配置错误。比如/etc/ssh/sshd_config中设置了Port 2222却忘了重启服务，或ListenAddress被限定为内网IP。此时需检查配置并重启。

但这里有个极易被忽略的细节：ss -tlnp默认只显示root用户有权限查看的进程信息。如果你非root用户执行，users:(...)部分会为空，你只能看到*:22，却无法确认是不是sshd在监听。因此，所有关键排查步骤必须在root或sudo权限下执行。我曾帮一位同事排障，他坚持用普通用户跑命令，反复确认“ss显示22端口在监听”，最后发现只是另一个叫fake-sshd的测试进程占用了端口——因为没加-p参数，根本看不到进程名。

另一个强力验证手段是使用telnet或nc（netcat）进行端口探测：

# 从客户端机器执行（非服务器本机） telnet your-server-ip 22 # 或 nc -zv your-server-ip 22

如果返回Connected to ...，说明TCP连接成功，问题一定出在sshd认证层（如密钥错误、用户被禁）；如果返回Connection refused，则100%是监听层问题。这个测试简单粗暴，却是区分“网络层问题”和“应用层问题”的分水岭。

注意：某些云厂商的安全组（Security Group）或网络ACL（Access Control List）会拦截特定端口的入站流量，但它不会返回RST包，而是直接丢弃SYN包，导致客户端超时（No route to host或Connection timed out）。所以，只要看到Connection refused，就能100%排除云平台网络策略的干扰，把火力集中到服务器本机。

3. 配置文件深挖：ListenAddress、Port与Protocol的致命组合

一旦确认sshd进程在运行且监听22端口，下一步就是逐行审查/etc/ssh/sshd_config。这不是走形式，而是因为OpenSSH的配置项之间存在隐式依赖关系，一个看似无害的修改，可能与其他选项产生灾难性冲突。我整理了5个最常引发“连接被拒”的配置陷阱，每个都附带真实案例和修复命令。

3.1 ListenAddress绑定错误：只监听回环，对外网隐身

这是新手最高频的错误。默认配置中ListenAddress是被注释掉的，意味着sshd监听所有可用IP（0.0.0.0）。但有人为了“安全”，手动添加：

ListenAddress 127.0.0.1

结果是sshd只监听本地回环地址，外部任何IP发来的连接请求都会被内核直接拒绝（RST）。ss -tlnp输出会变成127.0.0.1:22，而非*:22。

修复方案：删除该行，或改为监听所有地址：

# 注释掉这一行 # ListenAddress 127.0.0.1 # 或者显式指定所有IPv4和IPv6 ListenAddress 0.0.0.0 ListenAddress ::

修改后必须重启服务：sudo systemctl restart sshd。切记，reload有时不生效，尤其是监听地址变更时，restart才是保险做法。

3.2 Port与Protocol版本错配：SSHv1残留引发的兼容性雪崩

虽然SSHv1早已废弃，但某些老旧系统或定制镜像中仍可能残留Protocol 1配置。更危险的是Protocol 2,1这种写法。OpenSSH 7.0+版本已完全移除SSHv1支持，如果配置文件中还存在该选项，sshd启动时会静默失败，systemctl status sshd可能只显示active (exited)，而非active (running)，且ss -tlnp查不到监听端口。

快速检测：执行sudo sshd -T | grep protocol。正常应输出protocol 2。如果报错/etc/ssh/sshd_config line X: Unsupported option Protocol，说明配置中有非法值。

修复方案：编辑/etc/ssh/sshd_config，确保只存在：

Protocol 2

并删除所有Protocol 1或Protocol 2,1的行。保存后运行sudo sshd -t语法检查，再重启。

3.3 UsePrivilegeSeparation与PidFile路径冲突：权限不足导致启动失败

在某些容器化环境或最小化安装系统中，UsePrivilegeSeparation yes（默认开启）要求sshd能创建/var/run/sshd.pid文件。如果/var/run目录权限不对（如被挂载为noexec），或磁盘满导致无法写入，sshd会启动失败，但错误日志可能被刷屏淹没。

诊断技巧：不要只看systemctl status，直接看sshd的启动日志：

sudo journalctl -u sshd --since "1 hour ago" | grep -i "fail\|error\|cannot"

如果看到Could not load host key: /etc/ssh/ssh_host_rsa_key或Failed to create pid file，就是此问题。

修复方案：临时关闭特权分离（仅用于诊断）：

UsePrivilegeSeparation no

重启后若连接恢复，说明是权限问题。长期方案是修复/var/run挂载选项，或将PidFile指向可写的路径：

PidFile /tmp/sshd.pid

3.4 MaxStartups与MaxSessions的隐形熔断

当服务器遭遇暴力破解扫描时，sshd会启动连接限制机制。MaxStartups 10:30:60表示：最多允许10个未认证连接排队；当排队数超过10，每新增30个连接就随机拒绝1个；达到60个则全部拒绝。此时新连接会直接被RST，表现就是Connection refused。

验证方法：检查当前未认证连接数：

sudo ss -tn state syn-recv | wc -l

如果数字接近或超过MaxStartups的第一个值（如10），就是瓶颈。

紧急缓解：临时提高上限：

MaxStartups 30:60:120

并重启。但治本之策是启用Fail2ban或配置DenyUsers *@*配合IP黑名单。

3.5 PermitRootLogin与AuthenticationMethods的连锁拒绝

PermitRootLogin no本身不会导致连接被拒，但如果同时配置了AuthenticationMethods publickey，而root用户没有公钥，sshd会在认证阶段直接关闭连接，某些客户端会误报为Connection refused。更隐蔽的是AuthenticationMethods keyboard-interactive:pam与PAM模块故障的组合，会导致连接建立后立即中断。

终极验证：用-v参数启动ssh客户端，观察详细握手过程：

ssh -v -p 22 user@host

关注输出中debug1: Connection established.之后的日志。如果看到debug1: Authentications that can continue: publickey,password，说明连接已建立，问题在认证层；如果卡在debug1: Connecting to host [ip] port 22.之后，就是监听层问题。

实操心得：我养成了一个习惯——每次修改sshd_config，必先执行sudo sshd -t检查语法，再用sudo sshd -D -e -d以前台调试模式启动一次（-D不fork，-e输出到stderr，-d调试日志）。它会打印出所有加载的配置项和初始化步骤，比翻日志快十倍。虽然不能长期运行，但定位配置错误堪称神器。

4. 系统级拦截：iptables/nftables与SELinux的静默杀手

当sshd配置无误、进程正常监听，连接仍被拒，问题就升级到了操作系统内核层面。这里有两个“静默杀手”：网络防火墙（iptables/nftables）和强制访问控制（SELinux/AppArmor）。它们的共同特点是：不记录在sshd日志里，不返回明确错误，只让连接无声消失或被RST。

4.1 iptables规则链中的REJECT vs DROP：一眼识别拦截源

很多管理员以为“防火墙规则没开22端口，连接就会超时”，这是错的。DROP规则会让数据包被内核静默丢弃，客户端等待超时（Connection timed out）；而REJECT规则会主动发送RST包，客户端立刻收到Connection refused。所以，看到Connection refused，首先要怀疑iptables/nftables里有没有REJECT规则。

检查iptables规则：

# 查看所有规则，重点找22端口和REJECT动作 sudo iptables -L INPUT -n --line-numbers | grep -E "(22|REJECT)" # 或更精准地查22端口 sudo iptables -L INPUT -n | grep ":22"

常见陷阱规则：

REJECT tcp -- 0.0.0.0/0 0.0.0.0/0 tcp dpt:22 reject-with icmp-port-unreachable

这条规则会明确拒绝所有22端口连接，并返回ICMP端口不可达——但某些客户端会将其映射为Connection refused。

修复方案：临时清空INPUT链（仅用于测试）：

sudo iptables -P INPUT ACCEPT sudo iptables -F INPUT

如果此时SSH连接恢复，说明问题确实在iptables。永久修复需添加放行规则：

sudo iptables -A INPUT -p tcp --dport 22 -j ACCEPT sudo iptables -A INPUT -m state --state ESTABLISHED,RELATED -j ACCEPT

并保存规则（sudo iptables-save > /etc/iptables/rules.v4）。

4.2 nftables：现代防火墙的配置迷宫

在较新系统（如Ubuntu 20.04+/RHEL 8+）中，nftables已取代iptables。它的规则结构更复杂，但排查逻辑一致。检查nftables：

sudo nft list ruleset | grep -A 5 -B 5 "tcp dport 22"

典型问题配置：

tcp dport 22 counter packets 0 bytes 0 reject with icmp type port-unreachable

同样，reject是元凶。

修复方案：添加放行规则：

sudo nft add rule inet filter input tcp dport 22 accept

并确保该规则在reject规则之前（nftables按顺序匹配）。

4.3 SELinux：被低估的权限守门员

SELinux是Linux内核的安全模块，它能阻止sshd进程绑定到网络端口，即使配置正确、防火墙放行，也会导致Connection refused。它的特点是：sshd进程在运行，ss -tlnp能看到监听，但实际不响应任何连接请求。

诊断SELinux是否作祟：

# 检查SELinux状态 sestatus # 如果是enforcing模式，检查sshd相关布尔值 getsebool -a | grep ssh # 关键布尔值：sshd_can_network_connect 应为on sudo setsebool -P sshd_can_network_connect on

更精确的验证是查看SELinux审计日志：

sudo ausearch -m avc -ts recent | grep sshd

如果看到avc: denied { name_bind } for ... comm="sshd" name="ssh"，就是SELinux阻止了端口绑定。

永久修复：启用必要布尔值：

sudo setsebool -P sshd_can_network_connect on sudo setsebool -P ssh_sysadm_login on # 如果需要root登录

-P参数确保重启后依然生效。

4.4 AppArmor：Ubuntu系的另一道墙

在Ubuntu系统中，AppArmor可能替代SELinux。检查其状态：

sudo aa-status | grep ssh

如果看到/usr/sbin/sshd在enforce模式，且状态为DENIED，问题就在此。

临时禁用测试：

sudo aa-disable /usr/sbin/sshd

若连接恢复，则需编辑/etc/apparmor.d/usr.sbin.sshd，添加网络访问权限：

network inet stream, network inet6 stream,

然后重载：sudo apparmor_parser -r /etc/apparmor.d/usr.sbin.sshd。

踩坑实录：去年我处理一个Kubernetes节点SSH失联问题，ss -tlnp显示sshd监听22端口，iptables规则全放行，SELinux是permissive模式。最后发现是节点启用了--security-opt apparmor=unconfined，但宿主机AppArmor策略仍对容器内sshd生效。花了3小时才定位到aa-status里一个被忽略的abstractions/base引用。教训是：在容器/虚拟化环境中，必须同时检查宿主机和容器内的安全模块状态。

5. 认证层拒绝：当连接已建立，却被sshd主动踢出

如果前面所有步骤都通过，telnet host 22能连上，ssh -v能看到Connection established.，但紧接着就断开，且日志里没有Permission denied，而是Connection closed by ...或Write failed: Broken pipe，那么问题已深入sshd的认证与会话管理逻辑。这类问题不表现为“连接被拒”，但用户感知完全一样——输完密码/密钥，连接瞬间消失。

5.1 AllowUsers/AllowGroups白名单的绝对权威

AllowUsers和AllowGroups是sshd中最严格的访问控制。一旦配置，只有列表中的用户/组才能登录，其他所有用户，无论密码是否正确，都会被sshd在认证前直接拒绝连接。这种拒绝不经过PAM，不记录失败尝试，客户端看到的就是连接中断。

验证方法：检查/etc/ssh/sshd_config中是否有：

AllowUsers alice bob # 或 AllowGroups ssh-users

然后确认当前登录用户是否在列表中。id -un查看用户名，groups查看所属组。

修复方案：临时注释掉这两行，重启sshd。如果连接恢复，问题即此。长期方案是将用户加入白名单，或改用DenyUsers做黑名单管理（更灵活）。

5.2 MaxAuthTries与LoginGraceTime的暴力防护

MaxAuthTries 3限制单次连接最多尝试3次认证（密码/密钥）。LoginGraceTime 120规定连接建立后必须在120秒内完成认证，否则断开。如果客户端网络延迟高，或用户输入慢，可能触发Connection closed by ...。

诊断：ssh -v日志中会看到debug1: kex: server->client cipher: chacha20-poly1305@openssh.com MAC: <implicit> compression: none之后，长时间无响应，然后断开。

修复方案：临时调高参数：

MaxAuthTries 6 LoginGraceTime 300

但更推荐优化客户端体验，如启用ServerAliveInterval。

5.3 PAM模块故障：认证流程的暗礁

sshd通过PAM（Pluggable Authentication Modules）调用系统认证。如果/etc/pam.d/sshd中某个模块（如pam_faillock.so、pam_tally2.so）配置错误或数据库损坏，会导致认证流程崩溃，连接被重置。

检查PAM日志：

sudo tail -f /var/log/auth.log | grep -i pam

如果看到pam_faillock(sshd:auth): User xxx has no recorded failures或pam_tally2(sshd:auth): Error opening /var/log/tallylog，就是PAM模块问题。

紧急绕过：在/etc/pam.d/sshd中，注释掉可疑的auth [default=die]行，重启sshd。

5.4 SSH密钥格式与权限的魔鬼细节

客户端密钥权限过松（如644）会导致OpenSSH拒绝使用，但错误发生在客户端，服务器日志无记录。而服务器端/etc/ssh/ssh_host_*_key权限错误（如644），则sshd启动时会拒绝加载密钥，转而使用内存生成临时密钥，导致每次重启密钥变更，客户端报WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!，用户误以为连接失败。

检查服务器密钥权限：

ls -l /etc/ssh/ssh_host_*_key # 正确权限应为600 sudo chmod 600 /etc/ssh/ssh_host_*_key

5.5 DNS反向解析失败：被遗忘的性能杀手

UseDNS yes（默认）会让sshd对每个连接请求做PTR反向DNS查询。如果服务器DNS配置错误或网络不通，查询会超时（默认5秒），导致连接建立后长时间卡顿，最终被客户端或sshd自身中断。

诊断：ssh -v日志中，Connection established.之后，如果隔5秒才出现debug1: Remote protocol version 2.0...，就是DNS问题。

修复方案：关闭DNS解析：

UseDNS no

并重启。这是生产环境强烈推荐的配置，既能加速登录，又能避免此类诡异中断。

最后分享一个小技巧：当所有排查都失效，且你有物理或控制台访问权限时，用strace跟踪sshd进程，能看见它卡在哪一步：
sudo strace -p $(pgrep -f "/usr/sbin/sshd" | head -1) -e trace=network,connect,accept,bind -s 10000
然后从另一台机器发起SSH连接，strace会实时打印sshd的系统调用。如果看到bind(3, {sa_family=AF_INET, sin_port=htons(22), sin_addr=inet_addr("0.0.0.0")}, 16) = -1 EADDRINUSE，说明端口被占；如果一直没accept调用，说明连接根本没到达sshd——问题就在防火墙或网络设备。这是我压箱底的终极武器，99%的疑难杂症都能一招定位。

查看全文

http://www.jsqmd.com/news/877636/