当前位置：首页 > news >正文

Linux下fast.ai第一课环境搭建实战：CUDA驱动、conda依赖与GPU验证全指南

news 2026/7/3 19:45:03

1. 这不是“标准答案”，而是一份 Linux 环境下跑通 fast.ai 第一课的实操手记

你点开这篇，大概率正卡在 fast.ai 官方课程 Chapter 1 的最后几道思考题上：为什么conda install报错找不到包？为什么fastai导入时提示torch版本不兼容？为什么 Jupyter Notebook 里from fastai.vision.all import *执行到一半就 kernel died？别急——这不是你代码写错了，而是你正在经历每个从 Windows/macOS 转向 Linux 深度学习环境的新手必经的“Linux 真实世界校准期”。我带过 37 个用 Ubuntu 20.04/22.04 搭建 fast.ai 实验环境的学员，92% 的人卡点都集中在同一组底层依赖冲突、CUDA 驱动错配和 conda 环境隔离失效上。这篇不是照搬官方文档的“标准答案”，而是我把过去三年在阿里云 ECS、腾讯云 GPU 实例、本地 RTX 3090 工作站上反复重装、调试、抓包、比对日志后沉淀下来的完整复现路径。它包含所有你没在 Towards AI 原文里看到的细节：比如为什么必须用conda-forge而非defaults渠道安装pytorch；为什么nvidia-smi显示驱动版本是 515，但torch.version.cuda却返回11.3——这背后是 NVIDIA 驱动与 CUDA Toolkit 的语义分层问题；还有那个被官方教程轻描淡写带过的--no-deps参数，在真实环境中其实是避免pip install fastai强行降级你已装好的torchvision的救命开关。如果你刚装完 Ubuntu 桌面版，或者正准备在云服务器上部署第一个 fast.ai 模型，这篇就是你该打印出来贴在显示器边上的操作清单。

2. 整体设计思路：为什么放弃“一键安装”，坚持手动分层构建

2.1 核心矛盾：fast.ai 的高封装性 vs Linux 环境的强异构性

fast.ai 的设计哲学是“让深度学习像调用 Python 函数一样简单”，它把 PyTorch、数据加载、训练循环、评估指标全部封装进Learner对象。这种抽象在 macOS 或 Windows 上很友好，因为系统环境相对统一。但 Linux 不同——它没有“标准配置”：你的 GPU 可能是 Tesla V100（计算卡）、RTX 4090（消费卡）或 Jetson Orin（嵌入式），对应的 NVIDIA 驱动版本跨度从 470 到 535；你的 CUDA Toolkit 可能是系统级全局安装的 11.8，也可能是 conda 环境里自带的 12.1；你的 Python 解释器可能来自系统 apt（/usr/bin/python3.10）、pyenv（~/.pyenv/versions/3.10.12/bin/python）或 miniconda（~/miniconda3/envs/fastai/bin/python）。当 fast.ai 的setup.py自动解析依赖时，它默认信任pip和conda的元数据一致性，但现实是：conda list显示的cudatoolkit=11.3和nvidia-smi显示的驱动支持的最高 CUDA 版本（Driver Version: 515.65.01 → Max supported CUDA version: 11.7）之间存在隐含的兼容窗口。这个窗口一旦被跨过，就会出现Illegal instruction (core dumped)这类底层报错——它根本不会出现在 Python traceback 里，而是直接杀死进程。所以我的方案彻底放弃pip install fastai这种“黑盒安装”，转为三层解耦构建：驱动层 → CUDA 工具链层 → Python 包层。每一层都独立验证、独立锁定版本，确保可追溯、可复现。

2.2 方案选型逻辑：为什么选 Miniconda 而非 Anaconda？为什么禁用 pip？

先说 Miniconda：它只有 conda 包管理器和 Python 解释器，体积不到 100MB；而 Anaconda 自带 250+ 预装包，其中很多（如scikit-learn、matplotlib）会与 fast.ai 的依赖树产生隐式冲突。我在测试中发现，Anaconda 环境下conda install pytorch torchvision torchaudio pytorch-cuda=11.3 -c pytorch -c nvidia会额外升级numpy到 1.24，而 fast.ai v2.7.11 要求numpy<1.24，导致import fastai失败。Miniconda 则干净得多，所有包都按需安装。再看 pip：pip install fastai会强制安装torch==1.13.1+cu117，但这个二进制包要求系统驱动 ≥515.48.07，而 Ubuntu 22.04 默认仓库里的nvidia-driver-515是 515.43.04，差了两个小版本号——足够引发 CUDA 初始化失败。所以我的流程里，pip只用于安装fastai本身（且加--no-deps），所有底层依赖（torch,torchvision,torchaudio）全部由 conda 精确控制渠道和版本。这是经过 12 次云服务器重装验证的最稳路径。

2.3 环境隔离策略：为什么必须用 conda create -n fastai，而不是 conda install -c fastai？

fast.ai 官方推荐的conda install -c fastai fastai命令，本质是把fastai当作一个“普通 conda 包”安装到当前环境。问题在于：它的meta.yaml文件里定义的依赖约束是宽松的（如pytorch >=1.12），conda solver 会优先选择已缓存的旧版本。我在一台预装了torch 1.12.1的机器上执行该命令，结果fastai安装成功，但运行learn.fine_tune(3)时抛出RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the same——因为torchvision被装成了 CPU 版本。而conda create -n fastai python=3.10创建全新环境后，再用conda install pytorch=1.13.1 torchvision=0.14.1 torchaudio=0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia精确指定，就能确保三者 CUDA 编译版本完全一致。这个差异看似微小，实则是能否让 GPU 真正参与计算的生死线。

3. 核心细节解析：Linux 下不可绕过的 7 个关键检查点

3.1 检查点一：NVIDIA 驱动是否真正生效？别只信`nvidia-smi`

很多人运行nvidia-smi看到 GPU 列表就以为驱动装好了，这是最大误区。nvidia-smi只验证 NVIDIA 内核模块（nvidia.ko）是否加载，不验证用户态驱动库（libcuda.so）是否可被 CUDA 程序调用。真正的验证方式是：

# 1. 检查内核模块是否加载 lsmod | grep nvidia # 正常应输出类似：nvidia_uvm 12120064 0, nvidia_drm 65536 1, nvidia 42467328 75 nvidia_uvm,nvidia_drm # 2. 检查用户态驱动库路径 find /usr -name "libcuda.so*" 2>/dev/null # 正常应返回：/usr/lib/x86_64-linux-gnu/libcuda.so.1 # 3. 关键！用 CUDA 自带工具验证 /usr/local/cuda-11.7/samples/1_Utilities/deviceQuery/deviceQuery # 如果输出 "Result = PASS"，说明驱动 + CUDA Toolkit 完全就绪；若报错 "CUDA driver version is insufficient for CUDA runtime version"，说明驱动太老，需升级

我在阿里云 g7.2xlarge 实例上就遇到过：nvidia-smi显示正常，但deviceQuery报错。原因是云厂商预装的驱动是 470 系列，而 CUDA 11.7 要求驱动 ≥450.80.02。解决方案不是重装驱动，而是改用conda install pytorch-cuda=11.3，因为 CUDA 11.3 兼容驱动 450.80.02 —— 这就是为什么版本匹配表比单纯看nvidia-smi更重要。

3.2 检查点二：CUDA Toolkit 版本与 PyTorch 二进制包的隐式绑定关系

PyTorch 官网下载页面列出的torch-1.13.1+cu117中的cu117不是指“支持 CUDA 11.7”，而是指“用 CUDA 11.7 Toolkit 编译的二进制包”。这意味着：

你的系统必须安装 CUDA 11.7 Toolkit（或更高版本，如 11.8），否则libtorch_cuda.so会因缺少libcudnn.so.8等符号而无法加载；
但你的 NVIDIA 驱动只需满足 CUDA 11.7 的最低要求（≥450.80.02），无需升级到 515；
同时，torchvision必须用cu117版本，因为它的 C++ 扩展（如nms）是用相同 CUDA Toolkit 编译的，混用cu113的torchvision会导致undefined symbol: _ZN3c104cuda18getCurrentCUDAStreamE这类符号错误。

验证方法：

import torch print(torch.__version__) # 应输出 1.13.1+cu117 print(torch.version.cuda) # 应输出 11.7（注意：这是编译时的 CUDA 版本，不是运行时驱动支持的最高版本） print(torch.cuda.is_available()) # 必须为 True

提示：如果torch.cuda.is_available()返回False，90% 的概率是LD_LIBRARY_PATH未包含 CUDA 库路径。临时修复：export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64:$LD_LIBRARY_PATH；永久修复：在~/.bashrc末尾添加export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64:$LD_LIBRARY_PATH并执行source ~/.bashrc。

3.3 检查点三：Conda 环境的 Python 解释器路径是否被正确激活？

这是新手最容易忽略的“幽灵问题”。当你执行conda activate fastai后，终端提示符会变成(fastai) user@host:~$，但这只表示 conda 环境变量已加载，不保证当前 shell 的python命令指向该环境。验证方法：

which python # 正常应返回：/home/user/miniconda3/envs/fastai/bin/python python -c "import sys; print(sys.executable)" # 正常应返回同上路径

如果返回/usr/bin/python3，说明你可能在conda activate后又执行了sudo su或打开了新终端，导致环境未继承。解决方案：永远用conda run -n fastai python your_script.py替代直接调用python，或在脚本开头显式指定解释器路径#!/home/user/miniconda3/envs/fastai/bin/python。

3.4 检查点四：Jupyter Notebook 的内核是否绑定到正确环境？

即使 conda 环境正确，Jupyter 也可能仍在用 base 环境的内核。检查方法：

# 1. 查看已注册内核 jupyter kernelspec list # 正常应包含：fastai /home/user/.local/share/jupyter/kernels/fastai # 2. 如果没有，手动安装 conda activate fastai python -m ipykernel install --user --name fastai --display-name "Python (fastai)" # 3. 在 Jupyter 中切换内核：Kernel → Change kernel → Python (fastai)

我在腾讯云实例上曾因忘记这步，导致 notebook 里torch.cuda.is_available()返回False，而终端里却是True——因为 notebook 用的是 base 环境的 Python。

3.5 检查点五：fast.ai 数据集下载权限与路径问题

Chapter 1 的untar_data(URLs.PETS)会默认下载到~/.fastai/archive/。但在企业服务器上，~可能是 NFS 挂载点，写入权限受限。报错典型为PermissionError: [Errno 13] Permission denied: '/root/.fastai/archive'。解决方案：

# 1. 创建本地数据目录（推荐放在 /tmp 或 /home/user/data） mkdir -p /home/user/fastai_data # 2. 设置环境变量覆盖默认路径 export FASTAI_HOME=/home/user/fastai_data # 3. 在 Python 中验证 from fastai.data.external import URLs print(URLs.PETS) # 应返回 'https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz' # 下载后文件将存于 /home/user/fastai_data/archive/oxford-iiit-pet.tgz

3.6 检查点六：Ubuntu 22.04 的 GCC 版本陷阱

Ubuntu 22.04 默认 GCC 是 11.3，而 PyTorch 1.13.1 的二进制包是用 GCC 9.3 编译的。当你的系统有自定义编译的 C++ 扩展（如某些 fast.ai 插件）时，可能出现undefined reference to 'std::filesystem::...'错误——因为 GCC 11 默认启用 C++17 filesystem，而旧版 PyTorch 的 ABI 不兼容。临时解决方案：

# 降级 GCC 仅用于 fastai 环境（不影响系统） conda activate fastai conda install -c conda-forge gcc=9.5 # 然后重新安装 torch（强制用 GCC 9.5 编译） pip uninstall torch torchvision torchaudio -y conda install pytorch=1.13.1 torchvision=0.14.1 torchaudio=0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia

3.7 检查点七：Docker 用户的特殊注意事项

如果你在 Docker 容器里运行（如nvidia/cuda:11.7.1-devel-ubuntu20.04），必须额外做两件事：

挂载 NVIDIA 容器工具包：启动容器时加--gpus all参数，而非旧版--runtime=nvidia；
禁用容器内的 Nouveau 驱动：在 Dockerfile 中添加RUN echo 'blacklist nouveau' >> /etc/modprobe.d/blacklist-nouveau.conf && update-initramfs -u，否则容器内nvidia-smi会报NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver。

4. 实操过程：从裸机 Ubuntu 到 Chapter 1 完整运行的 12 步详解

4.1 步骤 1：基础系统更新与依赖安装（耗时约 3 分钟）

# 更新系统并安装基础编译工具 sudo apt update && sudo apt upgrade -y sudo apt install -y build-essential curl git wget vim htop tmux # 安装 NVIDIA 驱动（以 Ubuntu 22.04 + RTX 3090 为例） # 先禁用 Nouveau echo 'blacklist nouveau' | sudo tee /etc/modprobe.d/blacklist-nouveau.conf echo 'options nouveau modeset=0' | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf sudo update-initramfs -u # 重启后执行（注意：必须在字符界面，不要在 GUI 下运行） sudo ubuntu-drivers autoinstall sudo reboot

实操心得：ubuntu-drivers autoinstall比手动下载.run文件更安全，它会自动选择与内核版本匹配的驱动。我试过手动安装 515.65.01，结果与 Ubuntu 22.04.2 的 5.15.0-76-generic 内核不兼容，导致开机黑屏。而autoinstall选的是 515.43.04，完美适配。

4.2 步骤 2：安装 Miniconda 并初始化（耗时约 2 分钟）

# 下载 Miniconda3（Linux x86_64） wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh # 校验 SHA256（官方提供，务必验证） sha256sum Miniconda3-latest-Linux-x86_64.sh # 安装（不修改 .bashrc，避免污染全局环境） bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3 -f # 初始化 conda（仅对当前 shell） $HOME/miniconda3/bin/conda init bash source ~/.bashrc

注意：-f参数强制覆盖，避免安装中断；-b参数静默安装。不要用sudo，否则 conda 会写入/root/目录。

4.3 步骤 3：创建专用 conda 环境（耗时约 1 分钟）

# 创建 Python 3.10 环境（fast.ai v2.7.x 推荐） conda create -n fastai python=3.10 -y conda activate fastai # 添加 conda-forge 渠道（比 defaults 更新，包更全） conda config --add channels conda-forge conda config --set channel_priority strict

提示：channel_priority strict是关键！它确保 conda solver 优先从conda-forge获取包，避免defaults渠道的旧版numpy干扰。

4.4 步骤 4：安装 PyTorch 生态（耗时约 8 分钟，取决于网速）

# 安装 PyTorch 1.13.1 + CUDA 11.7（精确匹配） conda install pytorch=1.13.1 torchvision=0.14.1 torchaudio=0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia -y # 验证安装 python -c "import torch; print(f'PyTorch {torch.__version__}, CUDA available: {torch.cuda.is_available()}')" # 输出应为：PyTorch 1.13.1+cu117, CUDA available: True

实测对比：用pip install torch==1.13.1+cu117下载速度约 12MB/s，而 conda 通过conda-forge下载仅 2MB/s，但 conda 能自动解决cudatoolkit、cudnn等底层依赖，避免后续报错。时间换稳定性，值得。

4.5 步骤 5：安装 fastai 及其依赖（耗时约 5 分钟）

# 先升级 pip（conda 自带的 pip 版本太老） conda activate fastai pip install --upgrade pip # 关键！用 --no-deps 避免 pip 覆盖已装好的 torch pip install fastai==2.7.11 --no-deps -i https://pypi.tuna.tsinghua.edu.cn/simple/ # 手动安装 fastai 的其他依赖（确保版本兼容） pip install pandas scikit-learn matplotlib seaborn -i https://pypi.tuna.tsinghua.edu.cn/simple/

注意：--no-deps是灵魂参数。如果不加，pip install fastai会强行安装torch==1.13.1+cu117，但 conda 环境里已有的torch是1.13.1+cu117，两者看似相同，实则 conda 安装的torch包含cudatoolkit=11.7，而 pip 安装的不包含，导致torch.cuda.is_available()返回False。

4.6 步骤 6：配置 Jupyter Notebook 内核（耗时约 1 分钟）

conda activate fastai # 安装 ipykernel pip install ipykernel # 将 fastai 环境注册为 Jupyter 内核 python -m ipykernel install --user --name fastai --display-name "Python (fastai)" # 验证 jupyter kernelspec list

提示：--user参数确保内核安装到~/.local/share/jupyter/kernels/，避免需要sudo权限。

4.7 步骤 7：设置数据存储路径（耗时 30 秒）

# 创建数据目录 mkdir -p ~/fastai_data # 设置环境变量（永久生效） echo 'export FASTAI_HOME=~/fastai_data' >> ~/.bashrc source ~/.bashrc # 验证 echo $FASTAI_HOME # 应输出 /home/your_username/fastai_data

4.8 步骤 8：下载并解压 PETS 数据集（耗时约 15 分钟，取决于网络）

# 在 Python 中执行（确保已激活 fastai 环境） conda activate fastai python -c " from fastai.data.external import untar_data, URLs path = untar_data(URLs.PETS) print(f'Dataset extracted to: {path}') "

实操心得：首次下载会从 AWS S3 拉取约 800MB 的oxford-iiit-pet.tgz。如果超时，可手动下载：wget https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz -P ~/fastai_data/archive/，然后tar -xzf ~/fastai_data/archive/oxford-iiit-pet.tgz -C ~/fastai_data/。

4.9 步骤 9：运行 Chapter 1 核心代码（耗时约 2 分钟）

# 在 Jupyter Notebook 或 Python 脚本中运行 from fastai.vision.all import * import torch print(f"PyTorch version: {torch.__version__}") print(f"CUDA available: {torch.cuda.is_available()}") print(f"CUDA device count: {torch.cuda.device_count()}") # 加载数据 path = untar_data(URLs.PETS) dls = ImageDataLoaders.from_name_re(path, get_image_files(path/"images"), pat=r'^(.*)_\d+.jpg$', item_tfms=Resize(224)) # 创建 Learner learn = vision_learner(dls, resnet34, metrics=error_rate) # 训练 1 个 epoch（快速验证） learn.fine_tune(1)

关键观察点：learn.fine_tune(1)执行时，nvidia-smi应显示 GPU-Util 突增至 80%+，Memory-Usage 占用约 2.5GB（RTX 3090）。如果 GPU-Util 一直是 0%，说明torch.cuda.is_available()为False，需回溯检查点 3.2。

4.10 步骤 10：验证模型预测（耗时 30 秒）

# 随机选取一张图片预测 img = PILImage.create(get_image_files(path/"images")[0]) pred,pred_idx,probs = learn.predict(img) print(f"Prediction: {pred}; Probability: {probs[pred_idx]:.4f}") # 可视化 img.show()

注意：PILImage.create()会自动处理图像格式，无需手动cv2.imread或plt.imread。这是 fast.ai 封装的价值所在。

4.11 步骤 11：保存与加载模型（耗时 1 分钟）

# 保存模型 learn.export('pets_resnet34.pkl') # 新建 Python 脚本验证加载 # load_test.py from fastai.learner import load_learner learn = load_learner('pets_resnet34.pkl') print("Model loaded successfully!")

提示：export()保存的是完整 Learner 对象（含数据加载器、训练器、模型权重），比单独保存model.state_dict()更方便部署。

4.12 步骤 12：环境备份与复现（耗时 2 分钟）

# 导出当前环境的精确依赖 conda activate fastai conda env export > fastai-environment.yml # 该文件可用于在其他机器上一键复现 # conda env create -f fastai-environment.yml

实操心得：conda env export生成的 yml 文件包含所有包的 exact build string（如pytorch=1.13.1=py3.10_cuda11.7_cudnn8.5.0_0），比pip freeze更可靠。我曾用此文件在 3 台不同配置的服务器上 100% 复现成功。

5. 常见问题与排查技巧实录：那些让我熬夜到凌晨的报错

5.1 问题速查表：高频报错与根因定位

报错信息	根本原因	快速验证命令	解决方案
`Illegal instruction (core dumped)`	CPU 指令集不兼容（如在老 CPU 上运行 AVX-512 编译的 PyTorch）	`cat /proc/cpuinfo \| grep avx`	降级 PyTorch：`conda install pytorch=1.12.1 torchvision=0.13.1 torchaudio=0.12.1 pytorch-cuda=11.3 -c pytorch`
`OSError: libcudnn.so.8: cannot open shared object file`	CUDA cuDNN 库未安装或路径未加入`LD_LIBRARY_PATH`	`find /usr -name "libcudnn.so*"`	`conda install cudnn=8.5.0 -c conda-forge`
`ModuleNotFoundError: No module named 'fastai.vision.all'`	fastai 安装不完整或 Python 解释器路径错误	`python -c "import sys; print(sys.path)"`	检查`sys.path`是否包含`~/miniconda3/envs/fastai/lib/python3.10/site-packages`；若无，重装`pip install fastai --force-reinstall`
`RuntimeError: Expected all tensors to be on the same device`	数据和模型不在同一设备（CPU vs GPU）	`print(x.device); print(model.device)`	在`DataLoaders`创建时加`device=torch.device('cuda')`，或确保`learn.to_fp16()`前已调用`learn = learn.to(device='cuda')`
`PermissionError: [Errno 13] Permission denied`	数据目录权限不足（常见于 root 用户或 NFS 挂载）	`ls -ld ~/fastai_data`	`chmod 755 ~/fastai_data`或改用`/tmp/fastai_data`

5.2 独家避坑技巧：教科书里不会写的 3 个经验

技巧一：用strace抓取 CUDA 初始化失败的底层原因
当torch.cuda.is_available()返回False但nvidia-smi正常时，strace是终极武器：

strace -e trace=openat,open,connect python -c "import torch; torch.cuda.is_available()" 2>&1 | grep -i "cuda\|nvidia"

它会显示 PyTorch 尝试打开哪些 CUDA 库文件。如果看到openat(AT_FDCWD, "/usr/lib/x86_64-linux-gnu/libcudnn.so.8", O_RDONLY) = -1 ENOENT，就说明 cuDNN 未安装，而非驱动问题。

技巧二：conda list --revisions回滚到稳定状态
当你执行conda install导致环境混乱时，不要重装：

conda list --revisions # 查看历史版本 conda install --revision 3 # 回滚到第 3 个版本（编号从 0 开始）

我曾在一次误装tensorflow后，用此命令 10 秒恢复到 PyTorch 正常状态。

技巧三：nvidia-container-cli验证 Docker GPU 支持
在 Docker 环境中，nvidia-smi正常不代表容器内可用：

# 在宿主机执行 nvidia-container-cli --load-kmods configure --ldconfig=@/usr/bin/ldconfig --device=all # 若输出 "Status: 0"，说明 NVIDIA Container Toolkit 正常；若报错 "could not load NVML"，需重装 nvidia-docker2

5.3 真实案例复盘：我在腾讯云 GPU 实例上的 3 小时攻坚

客户用腾讯云 GN10X 实例（Tesla T4）部署 fast.ai，现象：torch.cuda.is_available()为True，但learn.fine_tune(1)时 GPU-Util 为 0%，训练速度比 CPU 还慢。排查过程：

Step 1：nvidia-smi显示 T4 正常，驱动 470.129.06；
Step 2：torch.version.cuda返回11.3，符合预期；
Step 3：strace发现 PyTorch 尝试加载/usr/lib/x86_64-linux-gnu/libcudnn.so.8失败；
Step 4：find /usr -name "libcudnn.so*"返回空，确认 cuDNN 未安装；
Step 5：conda install cudnn=8.2.1 -c conda-forge后，GPU-Util 立即升至 95%，训练速度提升 12 倍。

根因：腾讯云镜像默认不预装 cuDNN，而 PyTorch 1.13.1 的cu113版本依赖 cuDNN 8.2+。这个案例印证了检查点 3.2 的重要性——不能只看torch.version.cuda，必须验证底层库是否存在。

6. 最后分享一个小技巧：如何让 Chapter 1 的代码在任意 Linux 环境一键运行

我写了一个setup_fastai.sh脚本，把上述 12 步压缩成 5 行可执行命令。它会自动检测系统信息（Ubuntu 版本、GPU 型号、驱动版本），智能选择最优 CUDA Toolkit 和 PyTorch 组合。核心逻辑是：

# 自动识别驱动支持的最高 CUDA 版本 DRIVER_VERSION=$(nvidia-smi --query-gpu=driver_version --format=csv,noheader) case $DRIVER_VERSION in "515."*) CUDA_VERSION="11.7" ;; "470."*) CUDA_VERSION="11.3" ;; "450."*) CUDA_VERSION="11.1" ;; *) CUDA_VERSION="11.7" ;; esac # 然后执行 conda install ... pytorch-cuda=$CUDA_VERSION ...

这个脚本已在 GitHub 开源（搜索fastai-linux-setup），它不是魔法，而是把我们踩过的所有坑，转化成可复用的自动化逻辑。毕竟，真正的效率提升，不在于你多快装好一个环境，而在于你能让下一个同事，5 分钟内就在新机器上跑通 Chapter 1。

查看全文

http://www.jsqmd.com/news/1117312/