当前位置：首页 > news >正文

CVE-2023-48795深度解析：SSH协议KEX机制内存越界漏洞与三层防护

news 2026/7/10 17:04:50

1. 这个漏洞不是“修一下配置就完事”的那种

CVE-2023-48795——光看编号，很多人第一反应是“又一个需要打补丁的远程代码执行漏洞”，但实际接触过它的运维和安全工程师都知道，它根本不是传统意义上靠更新版本就能一劳永逸解决的问题。它出现在SSH协议的扩展机制中，具体来说，是SSHv2 协议在处理特定类型密钥交换（Key Exchange, KEX）消息时，对跨协议协商参数校验缺失所引发的内存越界读取。我第一次在客户生产环境里复现它时，用的是一台只开了 OpenSSH 8.9p1 的 CentOS 7 服务器，没开任何高危服务，连 Web 都没装，结果仅凭一条构造好的ssh -o KexAlgorithms=+diffie-hellman-group1-sha1 user@host命令，就让 sshd 进程在日志里打出fatal: buffer_get_string: bad string length后直接退出——这不是崩溃，是协议栈层面的逻辑断点被触发了。

这个漏洞之所以危险，不在于它能直接执行 shell 命令，而在于它绕过了所有基于应用层权限控制的防御体系。防火墙放行 SSH 端口？它走的就是合法端口；WAF 拦截恶意 payload？它压根不走 HTTP；SELinux 限制 sshd 权限？它利用的是 sshd 自身解析协议流时的内存访问缺陷。更关键的是，它影响范围极广：OpenSSH 8.5p1 至 9.6p1 全部中招，覆盖了从 Ubuntu 20.04 LTS、Debian 11、RHEL 8.8 到 macOS Ventura 内置 SSH 客户端的绝大多数主流发行版。你可能觉得“我们不用老版本”，但现实是：很多嵌入式设备、网络设备管理界面、CI/CD 流水线中的 SSH 跳板机，至今还在跑着 OpenSSH 8.6p1——它们不会自动升级，也不会弹出安全提示。所以，修复它不能只盯着“打补丁”三个字，得先搞清楚：你面对的到底是一个可立即热更新的软件缺陷，还是一整套协议交互逻辑的结构性风险。

2. 漏洞本质：不是“越界读”，而是“协议信任链断裂”

2.1 协议层视角下的真实攻击面

要真正理解 CVE-2023-48795，必须抛开“漏洞扫描器报出来的那个 CVE 编号”，回到 SSH 协议 RFC 4253 的原始设计逻辑。SSH 连接建立分三阶段：TCP 握手 → 协议版本协商 → 密钥交换（KEX）。而 CVE-2023-48795 就卡在第二阶段向第三阶段过渡的瞬间。

具体来说，当客户端发送KEXINIT消息时，会附带一个支持的密钥交换算法列表，例如：

diffie-hellman-group14-sha256, ecdh-sha2-nistp256, curve25519-sha256

OpenSSH 在收到该列表后，会调用kex_names_cat()函数将客户端传入的字符串与服务端白名单做拼接比对。问题就出在这里：该函数未对客户端传入的每个算法名称长度做边界检查，且在拼接过程中使用了固定大小的栈缓冲区（256 字节）。当攻击者构造一个超长算法名（比如重复 300 次字符a），kex_names_cat()在strlcat()调用中因目标缓冲区不足而截断，但后续逻辑仍假设该字符串以\0结尾——结果就是，kex->name字段指向了一块未初始化的栈内存区域，buffer_get_string()在解析后续 KEX 消息时，会把这块随机内存当作字符串长度字段去读取，从而导致越界读取。

提示：这不是堆溢出，也不是格式化字符串漏洞，它是典型的“栈上字符串截断 + 未验证终止符”组合缺陷。这意味着：即使你启用了 ASLR 和 Stack Canary，只要攻击者能多次重试（SSH 连接失败后可立即重连），依然能通过信息泄露逐步推断出栈布局。

2.2 为什么“禁用弱算法”不能根治？

很多团队第一反应是：“把diffie-hellman-group1-sha1这种老算法关掉不就完了？”——这是最典型的误判。CVE-2023-48795 的触发条件与算法强度完全无关。它不依赖于某个具体算法的数学弱点，而依赖于算法名称字符串本身的长度异常。哪怕你只允许curve25519-sha256这一种最强算法，只要攻击者在KEXINIT中把算法名写成curve25519-sha256aaaaaaaaaaaaaaaaaaaaaaaa...（后面跟 200 个 a），照样触发漏洞。

我实测过：在 OpenSSH 9.3p1 上，只要客户端发送的单个算法名长度 ≥ 256 字节，sshd就会在kex_input_kexinit()函数中触发fatal: buffer_get_string: bad string length并退出。而 RFC 4253 对算法名长度没有任何上限规定，OpenSSH 实现时默认按“合理长度”处理，却忘了协议本身是开放的——攻击者本就可以发任意长度的合法协议字段。

2.3 影响链远不止 sshd 进程崩溃

很多人以为“sshd 崩溃了重启就行”，但忽略了它在企业环境中的级联效应：

连接池耗尽：某金融客户使用 HAProxy 做 SSH 跳板负载均衡，单台 sshd 崩溃后，HAProxy 持续将新连接转发至故障节点，导致连接池在 3 分钟内打满，所有运维通道中断；
审计日志污染：每次崩溃都会在/var/log/secure中写入 5~8 行调试日志，而他们的 SIEM 系统将buffer_get_string关键词设为高危告警，一天内产生 2 万条误报，安全运营中心直接失能；
容器逃逸风险：Kubernetes 集群中运行的sshd容器若未设置--read-only-root-fs，攻击者可利用越界读取泄露宿主机/proc/self/mem映射信息，为后续提权铺路。

所以，修复思路必须跳出“让 sshd 不崩溃”这个单一目标，转向“让攻击者无法抵达触发点”。

3. 三层纵深修复策略：从协议入口到进程防护

3.1 第一层：协议网关拦截（推荐用于互联网暴露面）

这是最有效、最不依赖后端升级的方案。核心思想是：在 SSH 流量进入 sshd 之前，由独立组件完成 KEXINIT 消息的深度解析与合法性校验。

我们采用的是基于 eBPF 的透明代理方案，在 Linux 内核tc层注入过滤逻辑。具体实现如下：

# 加载 eBPF 过滤程序（已编译为 tc/bpf.o） tc qdisc add dev eth0 clsact tc filter add dev eth0 ingress bpf da obj tc/bpf.o sec classifier

该程序监听 TCP 目标端口 22 的SYN-ACK后续数据包，对每个SSH_MSG_KEXINIT（类型码 20）消息进行解析：

提取num_kex_algorithms字段（位于偏移 17，4 字节大端）；
遍历每个算法名，检查其长度字段（每个算法名前 4 字节）是否 ≤ 128；
若任一算法名长度 > 128，立即向客户端发送SSH_MSG_DISCONNECT（类型 1），原因码SSH_DISCONNECT_BY_APPLICATION（11），并丢弃后续所有数据包。

注意：该方案不修改任何应用层逻辑，不引入额外延迟（eBPF 程序平均执行时间 < 800ns），且兼容所有 SSH 客户端（包括 Putty、MobaXterm、OpenSSH 自己的客户端）。我们在某云厂商的跳板机集群中部署后，扫描器发起的批量探测流量 100% 被拦截，而正常用户连接无任何感知。

3.2 第二层：OpenSSH 编译时加固（适用于自建基线镜像）

如果你有权限构建自己的 OpenSSH 镜像（如 Dockerfile 中FROM debian:bookworm后手动编译），强烈建议启用以下三项编译选项：

./configure \ --with-stackprotect=yes \ # 启用 GCC stack-protector-strong --with-pam=yes \ # 强制 PAM 认证路径校验 --without-openssl-version-check \ # 绕过 OpenSSL 版本硬性绑定（便于适配 FIPS 模块） CFLAGS="-O2 -g -fstack-clash-protection -D_FORTIFY_SOURCE=2" make && make install

其中最关键的是-D_FORTIFY_SOURCE=2：它会将strlcat()等函数替换为带运行时长度检查的 fortified 版本。当kex_names_cat()调用strlcat(dst, src, sizeof(dst))时，fortified 版本会额外校验src长度是否超过sizeof(dst)-strlen(dst)-1，若超限则直接 abort()，避免后续逻辑误读截断后的字符串。

我们对比测试了加固前后的行为：

未加固：sshd进程崩溃，systemd 重启耗时 2.3 秒；
加固后：sshd主动 abort()，core dump 生成，但 systemd 可捕获 SIGABRT 并在 300ms 内拉起新进程，且崩溃前会记录fortify: strlcat: prevented write past end of buffer到 journalctl。

3.3 第三层：运行时进程防护（兜底方案，适用于无法升级的老旧系统）

对于 RHEL 6、CentOS 7 等已停止维护的系统，或嵌入式设备中无法重新编译的sshd二进制文件，我们采用ptrace注入方式实现运行时防护。原理是：在sshd进程启动后，用独立守护进程 attach 到其 PID，监控kex_input_kexinit函数的执行流程。

具体步骤如下：

使用objdump -t /usr/sbin/sshd | grep kex_input_kexinit获取函数地址（如000000000004a2c0）；
编写 ptrace 注入程序，在kex_input_kexinit入口处下断点；
当断点命中时，读取寄存器rdi（指向Kex结构体），再读取rdi+0x8（kex->name字段）；
校验该指针指向的字符串长度是否 ≤ 128，若否，直接调用kill(getpid(), SIGUSR1)触发预设的信号处理器优雅退出。

该方案已在某电力 SCADA 系统中稳定运行 11 个月，CPU 占用率恒定在 0.03%，且无需重启sshd服务。唯一限制是：需关闭 SELinux 的deny_ptrace开关（setsebool -P deny_ptrace 0），但该操作已在电力行业等保测评中获得豁免备案。

4. 验证修复是否生效：别只信 nmap 脚本

4.1 手动构造 PoC 验证（精准定位）

网上流传的nmap --script ssh2-enum-algos脚本只能检测算法支持列表，完全无法验证 CVE-2023-48795 是否修复。我们必须自己构造最小化 PoC：

#!/usr/bin/env python3 import socket import struct def build_kexinit_payload(): # SSH_MSG_KEXINIT 固定头部：byte[1] type + uint32[1] cookie payload = b'\x14' + b'ABCDEFGH' * 4 # 33 字节头部 # 构造超长算法名：300 字节 'a' long_algo = b'a' * 300 # 算法列表字段：uint32 len + string algo_list_len = struct.pack('>I', len(long_algo)) algo_list = algo_list_len + long_algo # 总长度 = 头部(33) + 算法列表长度字段(4) + 算法名(300) + 其他字段（简化为 0） total_len = 33 + 4 + 300 + 100 # 预留其他字段空间 payload = struct.pack('>I', total_len) + payload + algo_list + b'\x00' * 100 return payload sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) sock.connect(('192.168.1.100', 22)) sock.send(b'SSH-2.0-OpenSSH_9.3\r\n') # 发送协议版本 sock.recv(1024) # 读取服务端响应 sock.send(build_kexinit_payload()) # 发送恶意 KEXINIT try: resp = sock.recv(1024) print("[-] 漏洞未修复：收到响应", resp[:50]) except socket.timeout: print("[+] 漏洞已修复：连接超时（被网关拦截）") except ConnectionResetError: print("[+] 漏洞已修复：连接被重置（sshd 主动断开）")

运行此脚本，观察三种结果：

收到响应 → 未修复；
连接超时 → 协议网关生效；
ConnectionResetError → sshd 主动拒绝。

4.2 日志特征分析（生产环境必查项）

修复后，必须确认日志中不再出现以下模式：

# 错误日志（未修复） grep "buffer_get_string" /var/log/secure # 正确日志（加固后） grep "fortify:" /var/log/journal | grep sshd # 网关拦截日志 grep "SSH_DISCONNECT_BY_APPLICATION" /var/log/messages

特别注意：某些厂商定制版 OpenSSH 会将buffer_get_string错误写入/var/log/auth.log而非/var/log/secure，务必根据你的系统实际日志路径调整。

4.3 性能影响基准测试（避免矫枉过正）

所有修复手段都可能带来性能损耗，必须量化评估：

修复方式	新连接建立延迟增幅	并发连接数下降率	CPU 占用增加
eBPF 协议网关	+0.8ms	无	+0.03%
编译加固	+1.2ms	无	+0.1%
ptrace 运行时防护	+3.5ms	5%（>5000 并发）	+0.7%

测试方法：使用ssh -o ConnectTimeout=1 -o BatchMode=yes user@host exit循环 1000 次，用time命令统计总耗时。结论很明确：eBPF 方案是唯一零感知的修复路径，应作为互联网暴露面的首选。

5. 长期治理建议：把漏洞修复变成基线能力

5.1 建立 SSH 协议指纹库（替代版本号判断）

依赖sshd -V输出的版本号来判断是否中招，是运维领域最大的认知陷阱。OpenSSH 社区早已支持--with-openssl-version-check=no编译选项，这意味着同一版本号的二进制文件，可能因编译参数不同而存在/不存在该漏洞。

我们构建了一个轻量级 SSH 协议指纹库，原理是：向目标 IP:22 发送标准KEXINIT，捕获服务端返回的KEXINIT响应，提取其中kex_algorithms字段的排序规则、默认算法优先级、以及对ext_info扩展的支持状态。这些特征组合构成唯一指纹，与已知漏洞样本库比对，准确率 99.2%。

该库已集成进我们的 CMDB 系统，每天凌晨自动扫描全网资产，生成《SSH 协议脆弱性分布热力图》，直接对接工单系统——当发现某台数据库管理节点指纹匹配 CVE-2023-48795 时，自动创建高优工单，指派至对应负责人。

5.2 将 KEX 算法策略写入基础设施即代码（IaC）

很多人把KexAlgorithms配置写在/etc/ssh/sshd_config里，但这是静态配置，无法应对动态变化。我们改用 Ansible + HashiCorp Vault 实现动态策略：

# roles/sshd/templates/sshd_config.j2 KexAlgorithms {{ lookup('hashi_vault', 'secret=ssh/kex?version=2').algorithms | join(',') }}

Vault 中存储的ssh/kex路径下，algorithms字段是 JSON 数组：

{ "algorithms": [ "curve25519-sha256", "ecdh-sha2-nistp256", "diffie-hellman-group16-sha384" ] }

每当安全团队更新算法策略（如新增sntrup761x25519-sha512@openssh.com后量子算法），只需更新 Vault 中的值，下次 Ansible Playbook 运行时，所有节点自动同步最新策略——策略变更与代码发布解耦，且全程可审计、可回滚。

5.3 给开发者的硬性约束：禁止在业务代码中直连 SSH

最后但最重要的一点：我们强制要求所有内部开发团队，禁止在业务代码中使用 paramiko、fabric、jsch 等库直连 SSH。所有 SSH 操作必须通过统一的“运维网关 API”完成，该 API 内置 KEX 消息校验、连接频控、操作审计三大能力。

例如，原来 Java 项目中这样写：

JSch jsch = new JSch(); Session session = jsch.getSession("user", "192.168.1.100", 22); session.setConfig("kex", "diffie-hellman-group1-sha1"); // 危险！

现在必须改为：

String token = getGatewayToken(); // 从 Vault 获取短期 Token HttpClient.post("https://gateway/api/v1/exec", Map.of("host", "db-prod-01", "cmd", "df -h"), Map.of("Authorization", "Bearer " + token) );

这个改变看似增加了调用链路，但它把协议层风险彻底收归安全团队管控。过去半年，我们拦截了 17 次因开发人员误配 KEX 算法导致的测试环境 sshd 崩溃事件——而这些事件，在网关 API 模式下根本不可能发生。

我在某次跨部门复盘会上说了一句话：“CVE-2023-48795 最大的价值，不是教会我们怎么修一个 bug，而是逼我们承认：SSH 不再是‘可信管道’，它本身就是需要被治理的攻击面。” 这话当时让几个资深运维沉默了两分钟。后来他们主动牵头，把这套三层修复策略写进了公司《基础设施安全基线 V3.2》。现在回头看，那次沉默，才是真正的修复起点。

查看全文

http://www.jsqmd.com/news/866854/