当前位置：首页 > news >正文

别再硬扛多项式了！用Python的curve_fit搞定高斯拟合，实测物理实验数据处理

news 2026/6/2 18:10:19

别再硬扛多项式了！用Python的curve_fit搞定高斯拟合，实测物理实验数据处理

实验室里的数据总爱开玩笑——明明是个漂亮的双峰曲线，用多项式拟合却总像强行拼凑的乐高积木。上周处理光谱数据时，我盯着屏幕上锯齿状的拟合曲线，突然意识到：该和高斯函数这个老朋友叙叙旧了。

1. 为什么高斯函数是实验数据的"黄金搭档"

1.1 多项式拟合的先天缺陷

去年协助材料系研究生分析XRD数据时，我们尝试用6次多项式拟合衍射峰。结果令人啼笑皆非：

过拟合陷阱：在峰值区域完美贴合，却在基线处疯狂振荡
物理意义缺失：多项式系数无法对应实际物理参数
分段尴尬：不得不在拐点处手动分割数据区间

# 典型的多项式拟合代码 coeffs = np.polyfit(x_data, y_data, deg=6) poly_func = np.poly1d(coeffs)

1.2 高斯函数的天然优势

相比多项式，高斯函数（Gaussian Function）的数学形式：

$$ f(x) = A e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$

与许多物理现象的本质惊人吻合：

特性	物理对应	实验场景举例
对称钟形曲线	能级跃迁	原子吸收光谱
幅值A	粒子浓度	色谱分析
中心位置μ	特征能量/波长	XRD衍射角
标准差σ	系统分辨率	质谱仪峰宽

物理学家的小秘密：即使数据不完全符合高斯分布（如洛伦兹分布），高斯拟合仍能提供有价值的初始参数估计。

2. 双峰拟合实战：从数据到洞察

2.1 数据预处理的艺术

拿到实验数据第一步不是急着拟合，而是做好"数据美容"：

异常值处理：用中值滤波平滑突发噪声

from scipy.signal import medfilt y_smooth = medfilt(y_raw, kernel_size=5)

归一化技巧：将计数转换为[0,1]范围

y_normalized = (y_raw - y_min) / (y_max - y_min)

基线校正：减去本底噪声（关键步骤！）

baseline = np.percentile(y_data, 10) y_corrected = y_data - baseline

2.2 构建双峰高斯模型

面对文中提到的Tdc_gau.txt数据，我们需要定义双峰函数：

def double_gauss(x, A1, A2, μ1, μ2, σ1, σ2): """双峰高斯函数模板""" peak1 = A1 * np.exp(-(x-μ1)**2 / (2*σ1**2)) peak2 = A2 * np.exp(-(x-μ2)**2 / (2*σ2**2)) return peak1 + peak2

参数初始估计技巧：

用scipy.signal.find_peaks定位峰值位置
半高宽法估算σ值
幅值取对应位置的y值

2.3 curve_fit的魔法时刻

SciPy的curve_fit函数是拟合的核心引擎，但要用好它需要掌握几个关键点：

from scipy.optimize import curve_fit # 最佳实践调用方式 params, covariance = curve_fit( f=double_gauss, xdata=x_observed, ydata=y_observed, p0=[100, 150, 620, 680, 5, 10], # 初始参数猜测 bounds=([0,0,600,650,1,1], [200,200,700,700,20,20]) # 参数范围约束 )

常见坑点解决方案：

拟合发散？→ 添加参数边界约束
结果不稳定？→ 尝试不同初始值
协方差矩阵奇异？→ 检查数据点是否足够

3. 结果验证与可视化

3.1 误差评估三板斧

均方误差（MSE）：量化整体拟合质量
```
mse = np.mean((y_pred - y_obs)**2)
```
参数不确定性：从协方差矩阵对角线获取标准差
```
perr = np.sqrt(np.diag(covariance))
```
残差分析：绘制残差图检查系统性偏差

3.2 专业级可视化技巧

用Matplotlib绘制出版级图表：

fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(10,8), gridspec_kw={'height_ratios': [3,1]}) # 主图：原始数据与拟合曲线 ax1.scatter(x_data, y_data, s=20, label='Raw Data') ax1.plot(x_fit, y_fit, 'r-', label='Gaussian Fit') ax1.set_ylabel('Intensity (a.u.)') # 子图：残差分布 ax2.bar(x_data, residuals, width=0.8) ax2.axhline(0, color='black', linestyle='--') ax2.set_xlabel('Energy (keV)') ax2.set_ylabel('Residuals') plt.tight_layout()

4. 进阶技巧：当高斯拟合遇到特殊场景

4.1 非对称峰处理

有些实验峰会出现"拖尾"现象，这时可以考虑：

Voigt函数：高斯与洛伦兹的卷积

Skewed Gaussian：引入不对称参数

def skewed_gauss(x, A, μ, σ, α): return A * np.exp(-(x-μ)**2/(2*σ**2)) * (1 + erf(α*(x-μ)/(σ*np.sqrt(2))))

4.2 多峰拟合自动化

对于复杂光谱（如拉曼光谱），可以开发自动寻峰流程：

小波变换检测潜在峰位置
迭代拟合（从强峰到弱峰）
使用BIC准则判断最优峰数量

from sklearn.mixture import GaussianMixture gmm = GaussianMixture(n_components=3).fit(X.reshape(-1,1)) means = gmm.means_.flatten() weights = gmm.weights_.flatten()