当前位置: 首页 > news >正文

Linux 进阶运维与 AI 环境实战:进程管理、网络排错与 GPU 监控

欢迎关注专栏:CSDN:AI 开发技术

  • 上一篇:Linux 基础与运维核心命令实战:文件系统、文件操作与文本处理系统讲解 Linux 环境下从文件目录管理到基于 sed、awk 的高级文本处理全流程实战。
  • 下一篇: [Redis 基础理论与核心架构解析] 探讨 Redis 作为非关系型数据库的核心概念、与传统数据库的差异,以及高可用架构机制。

Linux 进阶运维与 AI 环境实战:进程管理、网络排错与 GPU 监控

文章目录

  • Linux 进阶运维与 AI 环境实战:进程管理、网络排错与 GPU 监控
    • 1 业务背景与核心问题
    • 2 Linux核心运维实战
      • 2.1 进程管理实战
        • 2.1.1 ps 基础进程查看
        • 2.1.2 ps aux 运维核心命令
        • 2.1.3 top 实时系统进程监控
        • 2.1.4 htop top增强版
        • 2.1.5 kill 进程终止操作
        • 2.1.6 jobs 与 bg 后台任务管理
      • 2.2 网络排查实战
        • 2.2.1 curl 网络请求工具
        • 2.2.2 wget 文件下载工具
        • 2.2.3 ss 本地网络连接查看
        • 2.2.4 netstat 网络状态查看
        • 2.2.5 ping 网络连通性测试
        • 2.2.6 traceroute 网络路径追踪
        • 2.2.7 dig DNS解析查询
        • 2.2.8 完整网络分层排查流程
      • 2.3 文件权限管理实战
        • 2.3.1 测试环境准备
        • 2.3.2 测试文件与目录创建
        • 2.3.3 权限查看与核心模型
        • 2.3.4 chmod 权限修改
        • 2.3.5 chown 所有者修改
        • 2.3.6 sudo 管理员权限操作
    • 3 AI大模型开发环境实战(vLLM/PyTorch/CUDA)
      • 3.1 环境准备
      • 3.2 CUDA与GPU基础监控
        • 3.2.1 GPU状态查看
        • 3.2.2 CUDA工具安装与版本查看
        • 3.2.3 GPU实时监控
      • 3.3 PyTorch GPU环境校验
      • 3.4 vLLM大模型推理服务部署
        • 3.4.1 vLLM安装与版本查看
        • 3.4.2 启动OpenAI格式API服务
        • 3.4.3 服务端口校验
        • 3.4.4 API接口测试
      • 3.5 多GPU分布式运行
        • 3.5.1 vLLM多卡张量并行
        • 3.5.2 torchrun分布式训练
      • 3.6 模型进程管理与缓存清理
        • 3.6.1 训练/推理进程查看
        • 3.6.2 卡死进程终止
        • 3.6.3 Hugging Face模型缓存管理
    • 4 AI工程运维核心技能
      • 4.1 端口占用排查
        • 4.1.1 指定端口查看
        • 4.1.2 端口占用进程查询
      • 4.2 日志查看与分析
        • 4.2.1 训练日志保存
        • 4.2.2 实时日志监控
        • 4.2.3 错误日志筛选
      • 4.3 CUDA环境变量配置
        • 4.3.1 查看GPU可见性变量
        • 4.3.2 指定运行GPU
    • 5 AI工程全流程排查指南
    • 6 核心必背命令速查
    • 7 AI工程常见问题与排查方案

关键词:Linux进阶, 进程管理, 网络排错, CUDA监控, vLLM阅读耗时:约 25 分钟

本文为个人技术学习笔记分享,记录工程实践过程,仅供参考。

1 业务背景与核心问题

作为全栈与 AI 开发者,扎实的 Linux 运维基本功是确保服务稳定、高效运行的前提。

2 Linux核心运维实战

2.1 进程管理实战

核心命令:

ps top htop kill jobs bg
2.1.1 ps 基础进程查看
ps PID TTY TIME CMD 2180 pts/4 00:00:00 bash 2736 pts/4 00:00:00 ps
字段含义
PID进程ID
TTY终端
TIMECPU占用时间
CMD命令名称
2.1.2 ps aux 运维核心命令
ps aux
参数含义
a所有用户进程
u显示用户信息
x显示后台进程
2.1.3 top 实时系统进程监控
top
按键作用
q退出
P按CPU排序
M按内存排序
k杀进程
字段含义
PID进程ID
USER用户
%CPUCPU占用
%MEM内存占用
COMMAND命令
2.1.4 htop top增强版

安装:

sudo apt install htop

运行:

htop
按键作用
F3搜索
F4过滤
F9杀进程
q退出
2.1.5 kill 进程终止操作
# 查看 PID ps aux | grep [xxx] # 终止进程 kill [PID] # kill -9 —— 强制终止(危险) kill -9 [PID]
参数含义
kill发送信号
-9强制终止(SIGKILL)

强制终止风险:

  • 文件损坏
  • checkpoint损坏
  • 数据未保存
2.1.6 jobs 与 bg 后台任务管理

启动后台任务:

sleep 100 &

&代表后台运行

查看后台任务:

jobs

后台恢复运行:

bg

操作流程:

  1. sleep 100使终端卡住
  2. 终止:Ctrl + C
  3. 暂停:Ctrl + Z
  4. 后台恢复:bg

2.2 网络排查实战

核心命令:

curl wget ss netstat ping traceroute dig
2.2.1 curl 网络请求工具
curl https://www.baidu.com

查看响应头:

curl -I https://www.baidu.com

保存网页到文件:

curl -o baidu.html https://www.baidu.com
选项含义
-o输出到指定文件
baidu.html保存的文件名
2.2.2 wget 文件下载工具
wget https://www.baidu.com
2.2.3 ss 本地网络连接查看
ss -tuln

查看80/443端口:

ss -tuln | grep 443
参数含义
-tTCP协议
-uUDP协议
-l仅显示监听端口
-n以数字形式显示
2.2.4 netstat 网络状态查看

安装:

sudo apt install net-tools

查看监听端口:

netstat -tuln

查看进程占用端口:

netstat -tulnp
参数含义
-tTCP
-uUDP
-l监听
-n数字格式
-p显示进程
2.2.5 ping 网络连通性测试
ping www.baidu.com # 指定ping包次数 ping -c 4 www.baidu.com
2.2.6 traceroute 网络路径追踪

安装:

sudo apt install traceroute

追踪百度路由:

traceroute www.baidu.com
2.2.7 dig DNS解析查询

安装:

sudo apt install dnsutils

执行查询:

dig www.baidu.com
2.2.8 完整网络分层排查流程
# 1. DNS 解析校验 dig +short www.baidu.com # 2. 网络连通性校验 ping www.baidu.com # 3. HTTPS服务可用性 curl -I https://www.baidu.com # 4. 文件下载测试 wget https://www.baidu.com # 5. 本地端口监听状态 ss -tuln
网络层级排查命令
DNS层dig
网络层ping
路由层traceroute
传输层ss/netstat
应用层curl/wget

2.3 文件权限管理实战

核心命令:

chmod chown sudo
2.3.1 测试环境准备
cd ~ mkdir -p linux-practice/permission-demo cd linux-practice/permission-demo
2.3.2 测试文件与目录创建
touch file.txt mkdir test_dir
2.3.3 权限查看与核心模型

查看权限:

ls -l

Linux权限模型:[user][group][others]

对象含义
user文件所有者
group所属用户组
others其他所有用户
2.3.4 chmod 权限修改

权限数值规则:

权限数值
r4
w2
x1

权限组合计算:

权限数值计算结果
rwx4+2+17
rw-4+26
r–44
r-x4+15

数字模式修改:

chmod 644 file.txt # 权限:-rw-r--r-- chmod 755 test_dir # 权限:drwxr-xr-x(目录x权限代表可进入)

符号模式修改:

符号含义
uuser
ggroup
oothers
aall
+添加权限
-删除权限
# 给所有者添加执行权限 chmod u+x file.txt # 移除其他用户读权限 chmod o-r file.txt # 给用户组添加写权限 chmod g+w file.txt
2.3.5 chown 所有者修改
# 修改文件所有者 sudo chown username file.txt # 同时修改所有者与用户组 sudo chown username:groupname file.txt
2.3.6 sudo 管理员权限操作
# 安装软件 sudo apt install tree # 系统更新 sudo apt update

3 AI大模型开发环境实战(vLLM/PyTorch/CUDA)

核心命令:

python pip nvidia-smi nvcc torchrun vllm

3.1 环境准备

cd ~ mkdir -p llm-dev cd llm-dev

3.2 CUDA与GPU基础监控

3.2.1 GPU状态查看
nvidia-smi
字段含义
GPU NameGPU型号
Memory-Usage显存占用
GPU-UtilGPU利用率
ProcessesGPU进程

查看GPU数量:

nvidia-smi -L nvidia-smi -L | wc -l
3.2.2 CUDA工具安装与版本查看

安装:

sudo apt install nvidia-cuda-toolkit

查看CUDA版本:

nvcc --version

查看CUDA安装路径:

which nvcc
3.2.3 GPU实时监控
watch -n 1 nvidia-smi

3.3 PyTorch GPU环境校验

进入Python环境:

python

核心校验命令:

import torch # 检查CUDA是否可用 torch.cuda.is_available() # 查看GPU数量 torch.cuda.device_count() # 查看GPU名称 torch.cuda.get_device_name(0) # 查看当前使用设备 torch.cuda.current_device() # 退出Python exit()

3.4 vLLM大模型推理服务部署

3.4.1 vLLM安装与版本查看
pip install vllm vllm --version
3.4.2 启动OpenAI格式API服务
python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen2-7B-Instruct
3.4.3 服务端口校验
ss -tuln | grep 8000
3.4.4 API接口测试

查看模型列表:

curl http://localhost:8000/v1/models

对话接口请求:

curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model":"Qwen/Qwen2-7B-Instruct", "messages":[ {"role":"user","content":"hello"} ] }'

3.5 多GPU分布式运行

3.5.1 vLLM多卡张量并行
python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen2-7B-Instruct \ --tensor-parallel-size 2
参数含义
–model模型名称
–tensor-parallel-sizeGPU数量
3.5.2 torchrun分布式训练

单机双卡启动:

torchrun --nproc_per_node=2 train.py
参数含义
torchrunPyTorch分布式启动
–nproc_per_node单节点GPU数量

3.6 模型进程管理与缓存清理

3.6.1 训练/推理进程查看
ps aux | grep python ps aux | grep vllm nvidia-smi
3.6.2 卡死进程终止
# 查询进程PID ps aux | grep python # 正常终止 kill PID # 强制终止 kill -9 PID
3.6.3 Hugging Face模型缓存管理

默认缓存目录:

~/.cache/huggingface/

查看缓存大小:

du -sh ~/.cache/huggingface

查看磁盘空间:

df -h

4 AI工程运维核心技能

4.1 端口占用排查

4.1.1 指定端口查看
ss -tulnp | grep 8000
4.1.2 端口占用进程查询
lsof -i:8000

4.2 日志查看与分析

4.2.1 训练日志保存
python train.py > train.log 2>&1
4.2.2 实时日志监控
tail -f train.log
4.2.3 错误日志筛选
grep ERROR train.log

4.3 CUDA环境变量配置

4.3.1 查看GPU可见性变量
echo $CUDA_VISIBLE_DEVICES
4.3.2 指定运行GPU
# 单卡运行 CUDA_VISIBLE_DEVICES=0 python train.py # 双卡运行 CUDA_VISIBLE_DEVICES=0,1 python train.py

5 AI工程全流程排查指南

GPU硬件校验

nvidia-smi

CUDA环境校验

nvcc --version

PyTorch CUDA识别校验

python import torch torch.cuda.is_available()

vLLM服务启动状态

ss -tuln | grep 8000

API接口可用性

curl http://localhost:8000/v1/models

6 核心必背命令速查

命令作用
nvidia-smi查看GPU状态
nvcc --version查看CUDA版本
pip list查看Python依赖包
torch.cuda.is_available()检查PyTorch CUDA
ss -tuln查看端口监听
tail -f实时查看日志
ps aux查看系统进程

7 AI工程常见问题与排查方案

问题排查命令
GPU不可见nvidia-smi
CUDA环境异常nvcc --version
PyTorch未识别GPUtorch.cuda.is_available()
vLLM服务无法访问ss -tuln
端口冲突占用lsof -i
模型下载失败curl/wget
显存溢出爆炸nvidia-smi
训练/推理服务卡死ps aux + kill
http://www.jsqmd.com/news/853881/

相关文章:

  • 别再死记硬背了!用打王者荣耀掉帧的例子,5分钟搞懂视频编码里的I/P/B帧
  • ROS2多机通信避坑指南:为什么你的虚拟机和宿主机能Ping通,但节点就是找不到?
  • 从‘盲人摸象’到‘全局视野’:手把手教你用MATLAB/Simulink仿真PSO-MPPT对抗光伏遮荫(避坑指南)
  • ElementPlus el-tabs组件样式深度定制:从基础美化到高级交互视觉方案
  • 基于Orange Pi 5 Plus与DEEPX栈的边缘AI部署实战指南
  • OpenHuman 深度解析:23k Star 的开源桌面 AI 超级助手完全指南
  • Bifrost三星固件下载器:免费跨平台获取官方系统的一站式解决方案
  • 用Python+OpenCV+SORT搞定高空抛物监测:从摄像头选型到代码调试的保姆级避坑指南
  • 山海再赴,探索向新|2026 第二届搜狐极限探索者大会盛大启航!
  • 福州高三升学集训选机构指南:不同预算不同需求怎么选 - 资讯速览
  • STM32结构体对齐:原理、设置与内存优化实战
  • IaC治理失控?DeepSeek内部用的5层防护网架构,已支撑日均3800+环境自动交付,现在开源核心逻辑
  • 安全元件在固件验证中的三大核心应用:安全启动、运行时保护与OTA升级
  • Light Chaser终极指南:如何5分钟构建专业级数据可视化大屏
  • 2026ICPC西安邀请赛
  • 动态图学习新范式!Transformer架构革新,统一框架与实战库引领研究新浪潮
  • 不只是安装:深度挖掘Windows Server 2022三大安全功能(安全核心、TLS 1.3、SMB加密)的实战配置
  • P2PNet训练数据预处理实战:用Python脚本快速生成ShanghaiTech等数据集的train.list
  • 2026年APP开发公司推荐指南:国内品牌app定制设计服务商精选 - 新闻快传
  • 团队冲刺第九天
  • 别再连错线了!STM32F103C8T6最小系统板用ST-LINK烧录保姆级教程(含KEIL5配置避坑指南)
  • VSCode装PlatformIO前必看:你的Python环境可能正在‘打架’(附Win10多版本Python清理指南)
  • 2026年四川美容化妆培训学校综合实力评测:5家品牌深度横评 - 资讯速览
  • 【UDS实战】0x85服务:冻结DTC更新,护航ECU程序刷写的幕后功臣
  • 2026年乌鲁木齐家装服务商权威测评及选型指南 - 新闻快传
  • LAMMPS新手避坑指南:如何快速找到并验证你需要的势函数(附NIST等权威库链接)
  • U-Boot分析【学习笔记】(12)
  • 解锁本科论文高效创作新范式 okbiye 智能写作全方位赋能学业撰稿
  • 逆向实战:我是如何一步步“还原”大韩航空官网的Akamai指纹校验逻辑的
  • 构造题