当前位置：首页 > news >正文

别再折腾了！手把手教你解决PyTorch CUDA报错：no kernel image is available for execution on the device

news 2026/7/22 17:28:18

彻底解决PyTorch CUDA报错：no kernel image is available for execution on the device

当你满怀期待地安装好PyTorch，准备开始深度学习之旅时，突然遇到RuntimeError: CUDA error: no kernel image is available for execution on the device这个错误，确实令人沮丧。特别是当torch.cuda.is_available()返回True，让你以为一切正常时，这个错误更显得莫名其妙。本文将带你一步步理解问题根源，并提供切实可行的解决方案。

1. 理解错误背后的原因

这个错误的核心在于显卡计算能力(Compute Capability)与PyTorch预编译二进制包支持的计算能力列表不匹配。简单来说，你的显卡太"老"了，而安装的PyTorch版本太"新"。

计算能力是NVIDIA显卡的一个重要指标，用sm_xx表示，例如sm_35表示计算能力3.5。PyTorch的每个预编译版本都会明确支持哪些计算能力的显卡。如果你的显卡计算能力不在PyTorch版本的支持列表中，就会出现这个错误。

常见的老显卡及其计算能力：

GeForce 920M: 3.5
GeForce 940M: 5.0
GeForce GTX 750 Ti: 5.0
GeForce GTX 960M: 5.0

2. 如何查询显卡计算能力

方法一：使用NVIDIA官方工具

打开命令提示符(Windows)或终端(Linux/Mac)
导航到CUDA安装目录下的demo_suite文件夹：
```
cd "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vX.X\extras\demo_suite"
```
其中X.X是你的CUDA版本号
运行deviceQuery工具：
```
deviceQuery
```
在输出中查找"CUDA Capability Major/Minor version number"，例如"3.5"表示计算能力3.5

方法二：查阅NVIDIA官方文档

访问NVIDIA官方计算能力表格： https://developer.nvidia.com/cuda-gpus

在页面中找到你的显卡型号，查看对应的计算能力。

3. 选择合适的PyTorch版本

知道了显卡计算能力后，下一步是选择支持该计算能力的PyTorch版本。以下是针对常见老显卡的推荐版本组合：

显卡计算能力	推荐PyTorch版本	对应CUDA版本
3.5	1.3.1	9.2
5.0	1.7.1	10.2
5.2	1.8.1	11.1

提示：对于计算能力3.5的显卡(如GeForce 920M)，PyTorch 1.3.1 + CUDA 9.2是最稳定的组合。

4. 安装指定版本的PyTorch

使用conda安装

对于计算能力3.5的显卡：

conda install pytorch==1.3.1 torchvision==0.4.2 torchaudio==0.3.2 cudatoolkit=9.2 -c pytorch

对于计算能力5.0的显卡：

conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.2 -c pytorch

使用pip安装

对于计算能力3.5的显卡：

pip install torch==1.3.1+cu92 torchvision==0.4.2+cu92 -f https://download.pytorch.org/whl/torch_stable.html

对于计算能力5.0的显卡：

pip install torch==1.7.1+cu102 torchvision==0.8.2+cu102 torchaudio==0.7.2 -f https://download.pytorch.org/whl/torch_stable.html

5. 验证安装是否成功

安装完成后，运行以下Python代码验证：

import torch # 检查CUDA是否可用 print(torch.cuda.is_available()) # 应该返回True # 检查计算能力是否匹配 print(torch.cuda.get_arch_list()) # 应该包含你的显卡计算能力 # 尝试在GPU上创建张量 test_tensor = torch.tensor([1, 2, 3], device='cuda') print(test_tensor) # 应该能正常输出，不报错

6. 常见问题及解决方案

问题一：安装后仍然报错

可能原因：

系统中存在多个CUDA版本，PyTorch使用了错误的CUDA版本
虚拟环境中没有正确继承系统CUDA

解决方案：

确认环境变量CUDA_HOME指向正确的CUDA安装目录
在虚拟环境中重新安装与PyTorch版本匹配的cudatoolkit

问题二：需要更高版本的PyTorch功能

如果因为项目需求必须使用较新的PyTorch版本，可以考虑：

从源码编译PyTorch：在编译时添加对老显卡计算能力的支持
```
export TORCH_CUDA_ARCH_LIST="3.5 5.0 5.2" # 添加你需要的计算能力 python setup.py install
```
但这种方法耗时较长，且需要一定的技术基础。
使用Google Colab：Colab提供免费的GPU资源，通常是比较新的显卡

7. 性能优化建议

对于使用老显卡进行深度学习训练的用户，以下建议可以帮助提升体验：

减小batch size：老显卡显存有限，适当减小batch size可以避免内存不足

使用混合精度训练：虽然老显卡对FP16支持有限，但仍可以尝试：

scaler = torch.cuda.amp.GradScaler() with torch.cuda.amp.autocast(): outputs = model(inputs) loss = criterion(outputs, labels) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()

考虑模型轻量化：使用更小的模型架构，如MobileNet、EfficientNet等

8. 升级硬件前的过渡方案

如果你暂时无法升级显卡，但又需要使用较新的PyTorch功能，可以考虑以下替代方案：

CPU训练：虽然速度慢，但对于小模型和数据集仍然可行
```
device = torch.device('cpu') model.to(device)
```
云端GPU服务：如Google Colab、AWS EC2等，按需付费使用更强的GPU

模型量化：将模型参数从FP32转换为INT8，减少计算量和内存占用

model = torch.quantization.quantize_dynamic( model, {torch.nn.Linear}, dtype=torch.qint8 )

9. 长期解决方案规划

虽然降级PyTorch版本可以解决眼前的问题，但从长远来看，考虑以下方向更为可取：

显卡升级路线图：了解不同价位显卡的计算能力，制定升级计划
- 入门级：GTX 1660 (sm_75)
- 中端：RTX 3060 (sm_86)
- 高端：RTX 3090 (sm_86)
多设备开发策略：
- 本地使用老显卡进行原型开发和调试
- 云端使用强大GPU进行大规模训练

容器化开发环境：

FROM pytorch/pytorch:1.7.1-cuda10.2-cudnn7-runtime WORKDIR /workspace COPY . . RUN pip install -r requirements.txt

使用Docker可以确保环境一致性，避免版本冲突。

遇到这个问题时，最重要的是不要气馁。深度学习社区中有很多人都在使用各种配置的设备，通过合理的版本选择和优化，即使是老显卡也能发挥出不错的性能。

查看全文

http://www.jsqmd.com/news/963352/

2026秀山管道疏通真实测评TOP5！马桶/下水道疏通/清理化粪池避坑汇总 - 速递信息

如何快速解决机械键盘连击问题：开源工具KeyboardChatterBlocker完整指南

网易云音乐下载器终极指南：告别凌乱音乐库，打造完美个人音乐收藏

厦门黄金回收商家综合排行出炉，连锁品牌优选指南 - 奢侈品回收评测

CAN总线验收滤波：硬件级数据筛选原理与多平台配置实战

实战指南：利用快马AI生成具备自动更新与静默安装功能的生产级软件安装包

NLP工程化方法论：规则+特征+人机协同的轻量级文本理解框架

企业级YAML智能配置解决方案：架构优化与开发效率提升指南

一站式高效开源游戏编辑器：Harepacker-resurrected技术解析与实战指南

2026年6月武汉奢侈品回收分级评分：S/A/B三级实测，谁才是真正的实力派？ - 薛定谔的梨花猫

老显卡（如GTX 920M）玩转PyTorch GPU加速的终极指南：从算力查询到版本匹配

终极GNOME Shell扩展管理难题的解决方案：Extension Manager一站式管理工具

LED照明环保优势全解析：从无汞原理到工程实践

2026 广州一般纳税人代账要点，专业财税机构帮企业规避税务风险 - 资讯综合站

CSDN AI卡片关闭功能是否存在？逆向分析其前端JS逻辑与后端GraphQL接口，发现3个可触发disable状态的埋点参数

FPGA虚拟JTAG调试：Tcl脚本实战与高级应用指南

STM32 FSMC 16位模式地址线右移原理与配置详解

Android 11权限适配：从‘单次授权’到‘软件包可见性’，一份给老项目的避坑清单

青岛找靠谱防水师傅，老牌防水机构楼长修楼全城快速上门 - 青岛防水品牌推荐

STN不只是‘空间注意力’：深入拆解Localisation Net，看它如何用6个参数玩转图像仿射变换

TikTok短视频生成工具哪家好？跨境出海如何用 AI 实现爆款视频复刻

Orca 2：小语言模型推理能力提升的结构化教学法

ాలు移动端AI换脸革命：3分钟掌握Deep-Live-Cam手机版终极攻略

CSDN AI卡片引流失效真相全解析，从微信链接被屏蔽到公众号跳转失败的5层技术拦截机制

避坑指南：Jenkins Pipeline中配置Kubernetes Pod模板的5个常见错误与解决方案

别再手动调参了！用DyHead模块一键提升YOLOv5/v7检测精度（附代码实战）

【RT-DETR实战】150、从研究到产品：工程化思维培养

HarmonyOS ArkUI Scroll 组件完全指南

2026 盘点无锡黄金 Top 商家，同城变现实地核验真实报价 - 开心测评

Flowable任务监听器实战：如何动态分配审批人？以Create监听器为例