当前位置：首页 > news >正文

用Python和Keras从零搭建CNN：我的胃病影像识别课程设计复盘（附完整代码与数据集）

news 2026/5/27 4:10:48

从零构建胃病识别CNN：一位AI初学者的实战手记

去年选修医学影像分析课时，我偶然在胃肠镜图像中发现了令人着迷的纹理特征——那些看似杂乱的黏膜褶皱里，是否藏着疾病诊断的密码？这个突发奇想促使我开始了为期三个月的胃病影像识别项目。作为非医学背景的计算机系学生，这段经历既充满技术探索的兴奋，也不乏踩坑调试的煎熬。本文将完整呈现从环境搭建到模型优化的全流程，特别分享那些教科书不会告诉你的实战细节。

1. 环境配置与数据集的那些坑

在Jupyter Notebook里敲下import tensorflow时，我完全没料到版本兼容问题会成为第一个绊脚石。经过五次环境崩溃后，最终稳定的组合是：

Python 3.8.10 TensorFlow 2.4.1 Keras 2.4.3 OpenCV 4.5.2

数据集来自某三甲医院的5000张胃镜图像，包含五类标签：

胃癌（cancer）
胃溃疡（ulcer）
胃息肉（polyps）
胃糜烂（erosion）
正常组织（normal）

注意：原始图像左侧15%区域包含检查设备生成的水印文字，这个看似无关的细节后来被证明对模型性能有显著影响

数据预处理时尝试了三种方案：

简单裁剪文字区域 → 损失重要病变特征
传统归一化处理 → 验证准确率仅52%
复合增强方案（最终采用）：

train_datagen = ImageDataGenerator( rescale=1./255, shear_range=0.2, zoom_range=0.2, horizontal_flip=True, width_shift_range=0.1)

2. CNN架构设计的进化之路

2.1 初代模型（8层网络）

像搭积木一样堆叠基础组件：

model = Sequential([ Conv2D(32,(3,3), activation='relu', input_shape=(256,256,3)), MaxPooling2D(2,2), Conv2D(64,(3,3), activation='relu'), Flatten(), Dense(128, activation='relu'), Dense(5, activation='softmax') ])

这个朴素结构在测试集上表现出典型的过拟合：

训练准确率：89%
验证准确率：61%

2.2 第二代模型（13层网络）

引入Dropout和批归一化后：

model.add(Conv2D(128,(3,3), activation='relu')) model.add(BatchNormalization()) model.add(Dropout(0.5))

关键改进：

参数总量减少47%
验证准确率提升至73%
训练时间缩短30%

2.3 最终版（17层网络）

深度增加带来的边际效益：

Layer (type) Output Shape Param # ================================================================= conv2d_13 (Conv2D) (None, 254, 254, 128) 3584 _________________________________________________________________ batch_normalization_5 (Batch (None, 254, 254, 128) 512 _________________________________________________________________ dropout_5 (Dropout) (None, 254, 254, 128) 0 ================================================================= Total params: 21,000,165 Trainable params: 20,999,557

尽管参数增多，但通过更精细的特征提取，在胃糜烂识别上F1-score提升了15%。

3. 与ResNet18的正面对比

当我的自定义模型达到瓶颈时，决定用经典架构作为基准测试：

base_model = ResNet18(weights=None, include_top=False, input_shape=(256,256,3)) x = GlobalAveragePooling2D()(base_model.output) predictions = Dense(5, activation='softmax')(x)

对比结果令人深思：

指标	自定义CNN	ResNet18
训练时间	2.1小时	3.8小时
验证准确率	79.2%	85.7%
内存占用	1.8GB	3.4GB
胃癌召回率	82%	91%

特别发现：对于胃溃疡和胃息肉的混淆情况，两个模型都表现不佳（<60%），暗示这两类病变可能在图像特征上存在本质相似性。

4. 那些值得记录的失败实验

4.1 自定义损失函数的尝试

受课程启发设计的损失函数：

def custom_loss(y_true, y_pred): return -tf.reduce_mean( y_true * tf.math.log(y_pred + 1e-7) + (1-y_true) * tf.math.log(1-y_pred + 1e-7))

虽然数学推导完美，但实际训练时loss下降速度比标准交叉熵慢3倍，最终放弃。

4.2 学习率调参的教训

使用ReduceLROnPlateau回调时，初始设置导致过早收敛：

# 错误配置 ReduceLROnPlateau(monitor='val_loss', factor=0.1, patience=2) # 优化后 ReduceLROnPlateau(monitor='val_accuracy', factor=0.5, patience=5, min_lr=1e-6)