当前位置: 首页 > news >正文

三层安全防护 + 命令白名单:一个敢带进生产的 AI 运维排查脚本

把 AI 放进生产环境排查问题,第一反应多半是「它会不会一不留神把数据库删了」——这也是我做这个项目时最在意的事。

Poor Man’s DevOps Agent是一个 80KB 的单文件 Python 脚本,扔进容器、接上任意 OpenAI 兼容 API,就能用自然语言对话式排查线上问题。而它敢被带进生产环境的核心,是一套三层安全防护:危险命令硬拦截、命令白名单、写操作人工确认。

宁可多确认一次,也不让 LLM 的幻觉删掉生产数据。

它怎么工作

你描述现象,它像运维工程师一样先形成假设,再用最小的只读命令逐个验证,命中就深挖、没命中就换假设:

你:帮我看看这个容器为什么 CPU 这么高 Agent:先形成假设——① GC 停顿 ② IO 瓶颈 验证①:top CPU 89%、内存 45%,假设①命中,继续深挖 docker exec py-spy dump --pid 1 抓到线程停在 gc.collect,根因是内存泄漏触发频繁 GC 建议查看 app.py 的对象缓存逻辑,已把该服务 OOM 阈值写入记忆

为什么值得一看

  • 单文件、零依赖:scp agent.py 进容器,标准库就能跑,Python 2.7 和 3.x 都兼容。不装 node、不装 CLI、不引一堆依赖。
  • 不绑厂商:任何 OpenAI 兼容 API 都能用——DeepSeek、通义千问、智谱 GLM、Kimi、豆包、讯飞星火,或者本地部署的 Ollama、vLLM。公司内网的私有模型也行。
  • 三层安全防护:这是敢把它带进生产的关键——rm -rf /、mkfs、dd of=/dev/ 这类危险命令直接硬拦截;只有白名单内的命令能执行;cat/grep/ps 这类只读命令免确认直接放行,其余需人工确认。LLM 不会因为幻觉把你的生产环境删了。
  • 借鉴 Claude Code 的核心思路:流式输出(边生成边显示)、LLM 摘要式上下文压缩(长对话不丢语义)、TodoWrite 任务追踪、工作区持久化记忆(排查结论跨会话累积)、斜杠命令。

它和 Claude Code 的区别

不是要复刻 Claude Code。Claude Code 是日常开发的主力工具,大而全;这个项目是应急时塞进容器的那一个脚本,只做「只读排查」这一件事,做到极致轻。借鉴它的思考方式,但用完就删,避免 API Key 泄露。

说点实在的局限(不忽悠)

它不是生产级常驻服务,是临时排查工具;LLM 给的分析只是参考,不保证 100% 正确,关键决策还得你自己判断;涉及写操作的命令务必人工确认后再执行。它解决的是「非运维背景的同学临时需要进容器排查」这个场景,不是要替代 DataDog 或专业监控。

怎么用

curl -fsSL https://raw.githubusercontent.com/vector4wang/poor-mans-devops-agent/main/agent.py -o agent.py export DEBUGBOT_API_URL="https://your-llm/v1/chat/completions" export DEBUGBOT_API_KEY="sk-xxxxx" export DEBUGBOT_MODEL="deepseek-chat" python agent.py

GitHub:https://github.com/vector4wang/poor-mans-devops-agent

如果对你有帮助,欢迎 Star,也欢迎提 Issue 和 PR 一起完善。

http://www.jsqmd.com/news/1085885/

相关文章:

  • 阿里巴巴 算法岗笔试真题【坏掉的键盘】
  • 从OHEM到Focal Loss:深入剖析目标检测中的难例挖掘策略演进与PyTorch实战
  • 从ORA-00257归档错误到系统恢复:Oracle DBA的实战排障与空间治理
  • 从Co-training到多视图学习:如何让AI模型“多角度看世界”以提升性能?
  • 亚马逊为何放弃 OpenAI 电影项目?数据中心员工奋起反抗,Meta 泄露员工数据
  • FinalShell密码找回:从本地存储到Java解码的完整实践
  • 如何为Windows XP/2003构建创新兼容层:突破性解决方案指南
  • AD实战指南 | 从封装选型到PCB布局:二极管、三极管与连接件的设计避坑手册
  • WindowResizer终极指南:如何强制调整任意窗口大小的3个简单步骤
  • AI诊断分析
  • Element-UI 弹窗遮罩层 z-index 管理:从 PopupManager 原理到复杂嵌套场景的实战修复
  • Confucius4-TTS:几秒克隆声音,跨语言情感迁移超自然,多语言自然配音神器 一键整合包下载
  • 5分钟构建专业可视化图表:Mermaid Live Editor的交互式设计革命
  • 技术人的‘讲真话’:在代码与协作中构建可信赖的工程文化
  • 从零上手JupyterLab:一站式安装、配置与核心功能实战
  • 【CANdelaStudio-从入门到深入到实战】80 从“配置看板”到“文化渗透”:用CANdelaStudio打造团队的“默认语言”
  • 计算机视觉的油气管道智能监测系统
  • 【深度解析】从笛卡尔到对话理论:技术视野下的自我认知与协作模型
  • Cursor Free VIP终极指南:3步永久免费使用AI编程助手Pro功能
  • 如何用SuperDuperDB构建端到端AI应用:5个实战场景深度解析
  • GRSL投稿实战:从审稿意见到录用通知的完整时间线解析
  • 终极OpenCore配置工具:让黑苹果安装简单如画的完整指南
  • Translumo:Windows平台终极实时屏幕翻译工具,3分钟实现跨语言无障碍体验
  • 分布式水文监测站可视化管理平台解决方案
  • 解放双手!NsEmuTools三大秘籍让你轻松玩转NS模拟器
  • 正规的不锈钢雕塑品牌哪个好?这3点帮你筛选
  • AMD显卡驱动精简终极指南:如何用Radeon Software Slimmer提升系统性能
  • 深度解析:so-vits-svc多说话人融合的完整技术架构与参数调优指南
  • 【OpenAI】GPTs应用实战:从零构建与外部API集成的智能助手
  • 从零构建Modelica模型:语法精要与标准库实战指南