麦阵波束算法——MVDR
一、CPSD
要介绍mvdr算法,首先得先介绍下cpsd,毕竟mvdr估计的协方差矩阵就是以此为基础。
假设场景:2mic,nfft = 640,freq = nfft / 2 + 1=321(频点数,不含负频点)
==> cpsd矩阵(复数矩阵):(321,2,2),即对每个频点计算2路mic的相关性,每个频点的cpsd矩阵大小是2x2,该帧一共321个频点。
例如,某一帧、某个频点f0的cpsd矩阵计算:(复数向量与其共轭转置的外积)
X*XH 的H含义:
X是实数:转置
X是复数:共轭+转置
对角线元素:(实数)
a11是mic1在频点f0处的平均功率
a22是mic2在频点f0处的平均功率
非对角线元素:(复数)
a12、a21是mic1和mic2在频点f0处的互功率谱密度
它是一个复数,里面包含:
幅值: 两个通道相关程度
相位: 两个通道的相位差
二、MVDR
算法本质就是音源到达麦阵各个麦克风的存在时间延迟(不同位置麦克风收到的信号的相位不同)!!!
通过上述算法,可以算clean语音的cpsd、也可以算noise的cpsd,mvdr就是将cpsd矩阵作为空间协方差矩阵。
MVDR的公式:
是第f0频点的波束形成的权重,大小是:(321,2);
是噪声cpsd的逆矩阵。为什么是噪声?mvdr最小化的是输出中的噪声功率;
是导向向量(steer vector),大小是:(321,2),每个频点每个通道都有对应的;
本质上 MVDR 权重就是对导向向量经过噪声协方差矩阵加权归一化后的结果,维度相同。
导向向量的计算:(工程上常用做法)
干净语音的cpsd估计导向向量:
如果是单源时,M可以近似为上述计算,M近似秩为1,M的每一列方向都成比例,可以取一列做归一化作为近似导向向量。
开源论文参考:
语音降噪+波束的方案论文:https://zhuanlan.zhihu.com/p/37271804
