当前位置：首页 > news >正文

基于MATLAB与CNN的语音信号分类探索

news 2026/3/26 18:52:24

基于MATLAB的语音信号生成小波时频图，然后利用cnn进行分类，网络结构为简单cnn网络和resnet18网络

在信号处理与机器学习交叉的领域中，对语音信号的分析与分类一直是热门话题。今天咱们就来唠唠如何基于MATLAB生成语音信号的小波时频图，并借助CNN（卷积神经网络）中的简单CNN网络和ResNet18网络实现分类。

一、MATLAB生成语音信号小波时频图

MATLAB在信号处理方面有着得天独厚的优势。咱们先读取语音信号文件，假设语音文件名为audio.wav。

[y, Fs] = audioread('audio.wav');

这里audioread函数用于读取音频文件，y就是读取到的语音信号数据，Fs则是该信号的采样频率。

基于MATLAB的语音信号生成小波时频图，然后利用cnn进行分类，网络结构为简单cnn网络和resnet18网络

接下来，为了生成小波时频图，我们可以使用cwt函数，连续小波变换（Continuous Wavelet Transform）。

wname = 'db4'; % 选择小波基，这里用Daubechies 4小波 scales = 1:128; % 设置尺度范围 [cfs, freqs] = cwt(y, scales, wname, 1/Fs);

在这段代码里，我们设定了使用db4小波基，并且在1到128的尺度范围内进行变换。cwt函数返回系数cfs和对应的频率freqs。

然后绘制小波时频图：

figure; surf(1/Fs:1/Fs:length(y)/Fs, freqs, abs(cfs)); shading interp; xlabel('Time (s)'); ylabel('Frequency (Hz)'); zlabel('Magnitude'); title('Wavelet Time - Frequency Representation');

这段代码创建了一个三维表面图，通过shading interp让图形看起来更平滑，坐标轴分别代表时间、频率和系数幅值。这样，我们就得到了语音信号的小波时频图，这个时频图能够展示语音信号在不同时间和频率上的能量分布情况，为后续的CNN分类提供特征数据。

二、基于CNN的分类

简单CNN网络

简单CNN网络结构一般由卷积层、池化层和全连接层组成。在Python的Keras库中搭建简单CNN网络可以这么做：

from keras.models import Sequential from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense model = Sequential() model.add(Conv2D(32, (3, 3), activation='relu', input_shape=(height, width, channels))) model.add(MaxPooling2D((2, 2))) model.add(Conv2D(64, (3, 3), activation='relu')) model.add(MaxPooling2D((2, 2))) model.add(Flatten()) model.add(Dense(64, activation='relu')) model.add(Dense(num_classes, activation='softmax'))

这里Sequential模型是一种线性堆叠模型。首先添加一个卷积层Conv2D，32 个卷积核，大小为(3, 3)，激活函数用relu，并且设定输入数据的形状（height、width和channels根据我们前面生成的小波时频图数据来确定）。然后紧跟一个池化层MaxPooling2D来降低数据维度。再次添加卷积层和池化层进一步提取特征。Flatten层将多维数据展平，最后通过全连接层Dense进行分类，输出的类别数量由num_classes决定，激活函数用softmax以得到各类别的概率分布。

ResNet18网络

ResNet18（Residual Network 18层）引入了残差结构，解决了深层网络训练中的梯度消失和梯度爆炸问题。同样在Keras中搭建：

from keras.applications.resnet import ResNet18 from keras.layers import Dense from keras.models import Model base_model = ResNet18(weights='imagenet', include_top=False, input_shape=(height, width, channels)) x = base_model.output x = GlobalAveragePooling2D()(x) x = Dense(256, activation='relu')(x) predictions = Dense(num_classes, activation='softmax')(x) model = Model(inputs=base_model.input, outputs=predictions)

这里先加载预训练的ResNet18模型，weights='imagenet'表示使用在ImageNet数据集上预训练的权重，include_top=False意味着不使用原模型最后的全连接层，因为我们要针对自己的语音分类任务进行调整。然后通过全局平均池化层GlobalAveragePooling2D对特征进行压缩，再添加全连接层和最终的分类层，最后构建成我们用于语音分类的ResNet18模型。