当前位置：首页 > news >正文

从LiteLLM供应链攻击看PyPI恶意包防御与应急响应实战

news 2026/7/26 15:01:34

1. 事件回顾与我的48小时应急响应

上周五下午，我像往常一样在Slack上处理团队的技术支持请求，一条来自安全团队的@消息让我瞬间放下了手头所有工作。消息很简单，但每个字都像重锤：“LiteLLM的PyPI包疑似被劫持，发现恶意代码，请立即检查所有相关依赖。” 我的大脑嗡的一声，因为我们团队至少有五个核心项目在生产环境中重度依赖LiteLLM作为统一的LLM调用抽象层。接下来的48小时，我几乎没合眼，经历了一场从个人开发者到开源项目维护者视角的、全方位的供应链攻击应急响应。这篇文章，就是这48小时里我所经历、所调查、所思考的一切。它不是一份官方的漏洞报告，而是一个一线工程师在真实危机中的实战记录、技术分析和避坑指南。

LiteLLM是什么？如果你在做大模型应用开发，很可能用过它。它是一个非常流行的开源库，核心价值在于用一个统一的接口（litellm.completion()）来调用几十种不同的LLM API，比如OpenAI的GPT、Anthropic的Claude、Cohere的命令行，甚至是本地部署的模型。它极大地简化了多模型切换和成本管理的复杂度。正因如此，它的PyPI包litellm每周有数百万次下载，是AI应用开发基础设施中的关键一环。这次攻击，直接瞄准了这个关键节点。

攻击的基本脉络是这样的：攻击者通过某种方式（很可能是窃取了维护者的PyPI账户凭证或利用了维护工具链的漏洞）获得了litellm这个包名在PyPI上的发布权限。然后，他们上传了带有恶意代码的新版本（具体是哪些版本，后面会详细说）。当用户通过pip install litellm或pip install --upgrade litellm时，如果恰好命中了恶意版本，恶意代码就会在安装过程中被执行。这段代码会尝试从攻击者控制的服务器下载第二阶段的载荷，并在受害机器上执行，从而可能导致敏感信息（如环境变量中的API密钥、服务器配置）泄露，甚至为后续的横向移动打开缺口。

我的第一反应不是恐慌，而是启动了一个标准但高度紧张的应急流程。这个过程，对于任何依赖开源软件的公司或个人开发者，都有直接的参考价值。

2. 应急响应全流程拆解：从警报到缓解

2.1 阶段一：确认与遏制（0-1小时）

收到警报后的头一个小时，目标只有一个：阻止损失扩大，并确认影响范围。

第一步：立即冻结部署和更新。我第一时间在团队频道和CI/CD管道中发布紧急通知，要求所有正在进行的、涉及Python依赖更新的部署立即暂停。特别是在使用requirements.txt或pyproject.toml且未严格锁定版本（即使用了litellm>=x.x这种泛版本指定）的流水线，必须中断。同时，通知所有开发人员，禁止在任何环境执行pip install litellm或pip upgrade相关命令。

第二步：快速定位内部影响。我写了一个简单的脚本，在所有关键服务器和容器镜像中跑了一遍，核心是检查已安装的litellm版本。

#!/bin/bash # 快速检查litellm版本脚本 pip list | grep -i litellm || echo “litellm not installed”

同时，我更仔细地检查了pip的安装日志和容器构建日志，寻找最近24-48小时内是否有安装或升级行为。幸运的是，我们的生产环境由于采用容器化部署，且基础镜像的依赖版本是两周前冻结的，因此没有自动升级到恶意版本。但一台用于测试新功能的开发服务器不幸中招，它在前一天晚上自动升级到了最新的1.10.0版本（当时已知的恶意版本之一）。

第三步：隔离受影响系统。那台被污染的开发服务器被立即进行网络隔离：从内部网络中移除，并暂停其上所有服务。我们没有选择立刻关机，因为后续需要它进行取证分析。但切断了它所有出站和入站的网络连接，只保留一个受控的管理通道。

注意：在供应链攻击中，“隔离”的优先级高于“取证”。第一时间切断潜在后门与攻击者控制服务器（C2）的通联，比保住现场进行分析更重要。这能有效阻止数据外泄和攻击的进一步扩散。

2.2 阶段二：调查与取证（1-12小时）

在初步遏制后，我们进入了深度的技术调查阶段。这个阶段的目标是搞清楚：我们到底装了什么？它做了什么？数据有没有丢？

1. 恶意版本锁定与代码比对。通过社区预警和PyPI官方信息，我们迅速锁定了已知的恶意版本范围。当时确认的包括1.10.0,1.9.3等。我做的第一件事是从PyPI下载了这些恶意包，以及一个已知安全的旧版本（如1.7.0），进行本地解压和代码比对。工具很简单，就是pip download和diff。

pip download litellm==1.10.0 --no-deps -d /tmp/malicious pip download litellm==1.7.0 --no-deps -d /tmp/clean cd /tmp && diff -r malicious/ clean/ > diff_report.txt

差异报告清晰地显示，恶意包在setup.py或__init__.py等入口文件中插入了额外的、经过混淆的代码。这些代码通常经过base64编码或简单的字符替换，核心逻辑是：在安装或导入时，启动一个子进程，从某个URL（如pastebin.com或githubusercontent.com的某个raw链接）下载Python脚本并执行。

2. 动态行为分析。为了安全地观察恶意代码的行为，我在一个完全离线的、快照隔离的虚拟机环境中安装了恶意包。使用strace、python -m trace以及网络流量监控工具（如tcpdump）来监视其所有系统调用和网络活动。这是最关键的一步，它让我们亲眼看到恶意代码尝试连接的外部域名和IP地址。我们记录了这些IoC（失陷指标），并立即加入到公司网络防火墙和所有安全设备的黑名单中。

3. 敏感信息扫描。我们最担心的是环境变量泄露。恶意代码通常会执行os.environ或os.getenv()来窃取OPENAI_API_KEY、ANTHROPIC_API_KEY、AWS_ACCESS_KEY_ID等关键凭证。我们对那台被隔离的开发服务器进行了全面的内存和磁盘扫描，寻找任何可疑的、外发的网络连接记录（检查/var/log下的日志，以及可能存在的临时文件）。同时，我们立即轮换了所有在该服务器环境变量中可能存在的API密钥和凭证，无论是否确认泄露。这是一个成本极低但安全性极高的操作。

4. 依赖树审查。供应链攻击往往具有传递性。我们使用pipdeptree工具生成了完整的依赖关系图，检查是否有其他间接依赖litellm的包也被波及，或者litellm本身是否被其他我们信任的包所依赖。这确保了清理工作的完整性。

2.3 阶段三：修复与加固（12-48小时）

在确认影响并完成初步取证后，工作重心转向恢复业务安全和防止未来事件。

1. 版本回滚与永久锁定。将所有环境中的litellm依赖明确固定到一个经过验证的安全版本。在我们的requirements.txt和pyproject.toml中，将版本指定从模糊的litellm>=1.7改为精确的litellm==1.7.0（假设1.7.0是安全的）。并且，我们在内部文档和CI/CD配置中强化了“永远使用精确版本号”的策略。

2. 构建自有镜像与缓存。对于生产环境，我们不再直接从PyPI拉取。我们建立了一个内部流程：当需要更新某个关键依赖时，先在一个隔离环境验证其安全性（包括代码审查和沙箱运行），然后将其打包进公司内部的自建PyPI镜像或直接构建到基础Docker镜像中。生产环境的构建只从这些受信任的源获取包。

3. 引入供应链安全工具。这次事件让我们痛定思痛。我们立即开始评估并引入了像pip-audit、safety、trivy（用于扫描容器镜像）这样的自动化安全扫描工具，并将其集成到CI/CD流水线中。任何带有已知漏洞（CVE）或来自可疑维护者的包都会导致构建失败。

4. 全面审查与监控。我们对所有其他具有类似高价值、高影响力的Python依赖（如requests,boto3,numpy,pandas等）进行了一次紧急审计，检查其维护状态、最近更新频率以及是否有双因素认证等安全措施。同时，我们加强了对于服务器出站连接中，连接到陌生或可疑域名的监控告警。

3. 恶意代码技术分析与攻击者手法推测

在应急响应中，理解攻击者的手法不仅能帮助我们清理现场，更能指导我们如何防御未来类似的攻击。通过对恶意包的反编译和动态分析，我大致还原了攻击者的操作链条。

3.1 攻击入口：PyPI账户与发布流程的突破

这是最令人担忧的一环。PyPI作为Python生态的核心，其账户安全至关重要。攻击者很可能通过以下一种或多种方式得手：

凭证窃取：维护者可能在多个网站使用了相同或弱密码，其中一个网站被“撞库”或泄露，导致PyPI密码被盗。或者，开发机器感染了窃取.pypirc配置文件中令牌的恶意软件。
2FA绕过或社会工程：虽然PyPI支持2FA，但攻击者可能通过钓鱼邮件或SIM卡交换攻击，诱骗维护者提供一次性验证码。
CI/CD令牌泄露：许多项目使用GitHub Actions等CI/CD服务自动发布到PyPI。如果仓库的Secrets中存储的PyPI API令牌泄露，或者CI/CD配置文件（如.github/workflows/publish.yml）存在漏洞，攻击者就可以利用它来发布恶意版本。

一旦获得了发布权限，攻击者就可以上传一个与正版版本号相同或更高的包。PyPI不允许覆盖已发布的版本，但可以发布一个“新”版本。他们选择了1.10.0这样的主版本更新，因为很多用户的依赖配置是litellm>=1.9.*，会自动升级。

3.2 恶意载荷的植入与混淆技术

攻击者没有直接修改LiteLLM的核心业务代码（如completion()函数），那样太容易被发现。他们选择了在“安装钩子”中做手脚。最常见的位置是setup.py文件中的setup()函数内部，或者包顶级__init__.py的模块级代码中。

我分析的一个恶意样本，其setup.py中包含了这样一段经过简单混淆的代码：

import base64, os, sys, subprocess encoded_cmd = "aW1wb3J0IHVy...（很长一串base64）" decoded_cmd = base64.b64decode(encoded_cmd).decode() if not os.path.exists(‘/tmp/.cache’): try: subprocess.Popen([sys.executable, “-c”, decoded_cmd], …) except: pass

解码后的decoded_cmd是一段Python代码，它的核心功能是：

尝试连接多个硬编码的URL（作为备份C2服务器）。
下载第二阶段的Python脚本到临时目录。
执行该脚本，实现持久化（例如，写入crontab或systemd服务）和信息窃取。

为了规避基于字符串的静态扫描，攻击者使用了简单的编码（如base64、rot13）、字符串拼接、或从网络获取密钥进行XOR解密等基础混淆手段。这并不高级，但足以绕过那些只检查明显恶意字符串的初级安全扫描。

3.3 第二阶段载荷的功能分析

第二阶段脚本的功能更具威胁性，通常包括：

信息收集：遍历环境变量，寻找包含KEY,SECRET,TOKEN,PASS等关键词的变量值。同时收集系统信息、用户名、网络配置等。
凭证外传：将收集到的信息通过HTTP POST请求加密发送到攻击者控制的服务器。
持久化驻留：在用户主目录下创建隐藏文件或伪装成系统服务，确保即使包被卸载，后门依然存在。
横向移动准备：尝试读取~/.ssh/id_rsa,~/.aws/credentials等文件，为攻击其他服务器做准备。

幸运的是，由于我们响应迅速，在攻击者可能设定的“潜伏期”或“定时上报”机制触发前就切断了网络，极大降低了实际数据泄露的风险。

4. 深度复盘：开源供应链安全的致命弱点与系统性加固

这场48小时的战斗暂时告一段落，但它暴露出的问题却值得每一个开发者、每一个团队深思。这不仅仅是一个库的问题，而是整个开源软件供应链生态的系统性风险。以下是我基于此次事件的深度复盘和加固建议。

4.1 我们为何如此脆弱？供应链攻击的“完美条件”

默认的信任：我们天然信任PyPI、npm、Docker Hub等公共仓库的包名。当看到pip install litellm时，我们默认它就是由LiteLLM官方团队发布的。这种基于“命名空间”的信任是整个生态的基石，但也成了最脆弱的环节。
自动化的诱惑：CI/CD和Dependabot等自动化工具鼓励我们使用版本范围（^,~,>=）来保持依赖更新，以自动获取安全补丁和新功能。但这把双刃剑也让我们在恶意版本发布时，自动成为了受害者。
维护者的安全单点故障：一个拥有数百万用户的项目，其发布权限可能只掌握在一两个维护者手中。他们的个人账户安全、设备安全，就成为了整个生态链上的“单点故障”。一次成功的钓鱼攻击，就能危及无数系统。
响应与追溯的滞后性：从恶意包发布，到被安全研究人员发现，再到通知维护者、PyPI官方下架、最后到所有用户知晓并采取行动，存在一个不可避免的时间差。这个时间窗口就是攻击者的“黄金收割期”。

4.2 个人开发者与小型团队的即时自保清单

对于没有庞大安全团队的我们，可以立即做以下几件事来大幅提升安全性：

1. 版本锁定是底线，而非可选项。

永远使用精确版本：在你的requirements.txt或pyproject.toml中，将关键依赖写死为package==x.y.z。这牺牲了自动获取小版本安全更新的便利，但换来了确定性和安全性。安全更新可以通过定期、受控的依赖审查流程来手动引入。
使用哈希校验：pip支持--require-hashes选项。维护一个包含每个依赖包及其哈希值的requirements.txt文件，可以确保安装的包字节级一致，防止中间人攻击或仓库被篡改。
```
litellm==1.7.0 \ --hash=sha256:abc123... \ --hash=sha256:def456...
```

2. 实施依赖更新的人工审批流程。

禁用所有依赖的完全自动更新。任何依赖变更（即使是次要版本或补丁版本）都必须经过一个简单的代码审查流程：查看该版本的Changelog、在GitHub/GitLab上查看对应版本的提交差异。对于像litellm这样的核心基础设施，即使是1.9.3到1.9.4的更新，也需要人工确认。

3. 引入轻量级自动化扫描。

在本地和CI流水线中集成pip-audit。它可以检查已安装包是否包含已知的CVE漏洞。虽然它可能无法捕获这种0day的恶意包，但能解决大部分已知风险。
使用safety或bandit进行简单的代码安全检查。虽然对高级混淆代码效果有限，但可以作为一道基础防线。

4. 环境隔离与最小权限原则。

开发与生产环境严格分离：生产环境的依赖版本必须比开发环境更保守、更固定。
使用虚拟环境：始终在venv、conda或pipenv创建的项目专属虚拟环境中安装包，避免污染系统级的Python环境。
限制网络出口：在服务器上，使用防火墙规则严格限制不必要的出站连接。特别是对于生产服务器，可以只允许其访问真正需要的API端点（如api.openai.com）和内部包仓库。

4.3 企业与中大型团队的系统性防御体系

对于有资源的团队，应该构建更深度的防御：

1. 建立私有、经过审计的包仓库。

使用devpi、Nexus Repository或Artifactory搭建内部PyPI镜像。所有外部包必须先同步到内部仓库，经过安全扫描和（可选的人工）审计后，才能被生产系统使用。这相当于在企业边界建立了一个“安全检疫区”。

2. 在CI/CD管道中建立多层安全门禁。

门禁1（提交前）：开发者在本地使用预提交钩子（pre-commit hooks）运行pip-audit和bandit。
门禁2（合并前）：在Pull Request流水线中，除了运行测试，还必须运行：
- 依赖漏洞扫描（pip-audit/trivy）。
- 软件成分分析（SCA），使用像Snyk、Dependabot Advanced Security或GitLab Dependency Scanning这样的工具，它们能提供更丰富的漏洞数据库和许可证合规检查。
- 针对requirements.txt的变更进行重点审查，查看每个版本变动的合理性。
门禁3（构建时）：构建Docker镜像时，使用trivy或grype对最终生成的镜像进行漏洞扫描，不合格则构建失败。

3. 运行时保护与监控。

在容器或主机上部署运行时安全代理（如Falco），监控异常的进程行为，例如：Python解释器试图从/tmp目录执行代码、尝试连接已知的恶意IP等。
集中收集和分析服务器日志，特别是包管理器的操作日志（/var/log/apt/，pip日志）和异常的网络连接日志，设置告警规则。

4. 制定明确的应急响应预案。

这次事件就是最好的演练。事后，我们立即编写了一份《开源供应链安全事件应急响应手册》，明确了：
- 第一责任人是谁？
- 如何快速确认和隔离受影响系统？
- 如何调查取证（工具、步骤）？
- 如何内部和外部沟通？
- 恢复和加固的标准流程是什么？当每个人都清楚流程时，恐慌就会减少，效率就会提高。

5. 对开源维护者的启示与社区协作

作为这场事件的亲历者，我也从维护者的角度思考了很多。维护一个流行的开源项目，责任重大。

1. 强化账户安全是维护者的第一要务。

无条件启用2FA：不仅在GitHub、GitLab，更要在PyPI、npm、Docker Hub等所有发布平台上启用强双因素认证（推荐使用FIDO2安全密钥或TOTP应用，而非短信）。
使用发布令牌（API Token）而非密码：PyPI等平台支持创建作用域受限的API令牌，专用于CI/CD发布。这样即使令牌泄露，攻击者也无法登录账户修改其他设置。
定期审查账户活动：定期检查PyPI账户的登录历史和发布历史。

2. 加固发布流程。

使用受信任的CI/CD进行发布：避免从个人电脑直接twine upload。配置GitHub Actions等CI，仅在打上特定标签（如v1.10.0）时触发发布流程。CI环境的秘密管理相对更安全。
对发布进行签名（虽然生态支持有限）：学习使用GPG对发布的包进行签名，让用户可以通过校验签名来确认包的来源。尽管目前pip默认不强制校验，但这是一种最佳实践。
考虑使用发布联席机制：对于关键项目，可以设置需要多个维护者批准才能完成发布的流程（例如，通过GitHub的Protected Tags和Required Reviews）。

3. 建立与社区的透明沟通渠道。

当安全事件发生时，迅速、透明地通过所有渠道（GitHub Security Advisory、项目首页、Twitter、Discord/Slack）发布公告，告知用户受影响版本、危害、缓解措施和已确认的安全版本。
与PyPI等平台的安全团队保持良好沟通，以便在需要时快速下架恶意包。

这次LiteLLM事件，最终在维护者、PyPI管理员和安全社区的共同努力下得到了控制。但它像一次刺耳的警报，提醒着我们所有人：我们构建的数字世界，依赖于一个由无数志愿者用热情和维护的、既坚韧又脆弱的开源供应链。作为使用者，我们不能只做“拿来主义”者，必须为自己的依赖负责；作为维护者，我们手握无数系统的钥匙，必须如履薄冰。安全不是一个功能，而是一个贯穿软件生命周期始终的过程。这48小时让我深刻体会到，在开源的世界里，信任需要共同守护，而 vigilance（警惕）是我们每个人必须支付的“税”。

查看全文

http://www.jsqmd.com/news/910053/