当前位置：首页 > news >正文

从物理实验到金融预测：用SciPy解锁曲线拟合的实战密码

news 2026/4/18 17:20:18

1. 曲线拟合：从物理实验到金融预测的万能钥匙

记得大学物理实验课上那个自由落体实验吗？我们反复测量小球下落时间与高度，然后在坐标纸上描点画线。当时只觉得是枯燥的实验流程，直到后来我才明白，那其实就是人生中第一次亲手完成的曲线拟合。现在回头看，这种通过观测数据反推规律的方法，简直就像拿到了解读世界的密码本。

在数据分析领域，曲线拟合远不止于物理实验。我做过一个有趣的项目：通过某电商平台历史销量数据预测未来趋势。当看到拟合曲线与实际销售波动高度吻合时，那种感觉就像掌握了商业世界的重力加速度。SciPy的curve_fit和least_squares函数，正是实现这种"魔法"的核心工具。它们能处理从简单的二次函数到复杂的自定义模型，无论是物理学中的理想曲线，还是金融数据里那些看似毫无规律的波动。

2. 初识SciPy拟合工具包

2.1 自由落体实验的代码重现

让我们用代码重现那个经典的物理实验。假设我们要验证自由落体公式h=½gt²，首先模拟带噪声的观测数据：

import numpy as np from scipy.optimize import curve_fit import matplotlib.pyplot as plt def simulate_free_fall(times, g=9.8, noise_level=0.5): """模拟带测量误差的自由落体数据""" return 0.5 * g * times**2 + noise_level * np.random.randn(len(times)) times = np.linspace(0, 3, 15) # 0到3秒，取15个时间点 heights = simulate_free_fall(times) def quadratic_model(t, g): """定义待拟合的二次函数模型""" return 0.5 * g * t**2 params, _ = curve_fit(quadratic_model, times, heights) fitted_g = params[0] # 拟合得到的重力加速度

这段代码揭示了一个重要事实：即使存在测量误差，我们仍然能通过拟合还原出接近9.8的g值。在我实际处理工业传感器数据时，这种抗噪声特性特别有用。

2.2 拟合效果可视化对比

将原始数据、拟合曲线和理论曲线放在一起对比：

plt.scatter(times, heights, label='实测数据') plt.plot(times, quadratic_model(times, fitted_g), 'r--', label=f'拟合曲线 (g={fitted_g:.2f})') plt.plot(times, quadratic_model(times, 9.8), 'g:', label='理论曲线 (g=9.8)') plt.xlabel('时间(s)'); plt.ylabel('高度(m)') plt.legend(); plt.show()

这种可视化方法在金融数据分析中同样重要。我曾用类似的方法对比过股票实际价格与拟合模型预测值，差距一目了然。

3. 金融时间序列的拟合实战

3.1 股价波动中的指数衰减模式

金融数据往往比物理实验数据更"嘈杂"。以某科技股30天的收盘价为例，我们可以尝试拟合指数衰减模型：

def exp_decay(t, a, b, c): """指数衰减模型""" return a * np.exp(-b * t) + c days = np.arange(30) prices = [152, 148, 145, 142, 140, 138, 136, 134, 133, 132, 131, 130, 129, 128, 128, 127, 127, 126, 126, 126, 125, 125, 125, 125, 124, 124, 124, 124, 124, 123] params, _ = curve_fit(exp_decay, days, prices, p0=[20, 0.1, 120])

这里p0参数特别关键，它提供了初始猜测值。就像我第一次尝试时没设p0，结果拟合完全偏离，后来才明白金融数据的参数需要合理初始值。

3.2 经济指标的多项式拟合

GDP增长率这类经济指标更适合多项式拟合。用中国2000-2020年GDP数据演示：

years = np.arange(2000, 2021) gdp_growth = [8.5, 8.3, 9.1, 10.0, 10.1, 11.4, 12.7, 14.2, 9.7, 9.5, 10.6, 7.9, 7.8, 7.3, 6.9, 6.7, 6.8, 6.6, 6.1, 2.2, 8.1] def cubic_model(x, a, b, c, d): return a*x**3 + b*x**2 + c*x + d coeffs, _ = curve_fit(cubic_model, years-2000, gdp_growth)

这种拟合对政策效果评估很有帮助。不过要注意过拟合问题——我曾用10阶多项式完美拟合历史数据，但对未来预测完全不准，这就是典型的"教科书式翻车"。

4. 高级技巧与避坑指南

4.1 带约束条件的参数估计

实际项目中经常需要约束参数范围。比如在药物代谢研究中，衰减系数必须为正数：

from scipy.optimize import least_squares def drug_concentration_model(t, k, c0): return c0 * np.exp(-k * t) def residuals(params, t, y): return drug_concentration_model(t, *params) - y initial_guess = [0.1, 100] # 初始猜测值 bounds = ([0, 0], [np.inf, np.inf]) # k>0, c0>0 result = least_squares(residuals, initial_guess, bounds=bounds, args=(observation_times, concentrations))

这个案例来自我参与的一个医药数据分析项目。没有约束时，算法可能返回负的代谢速率，这在生物学上是不可能的。

4.2 自定义损失函数处理异常值

金融数据常有异常波动，标准最小二乘法会过度受其影响。解决方案是使用Huber损失函数：

def huber_loss(params, x, y): predictions = model(x, *params) residual = y - predictions small_res = np.abs(residual) < 1 return np.where(small_res, residual**2, 2*np.abs(residual)-1) result = least_squares(huber_loss, initial_params, args=(stock_days, stock_prices))

这个技巧帮我解决过加密货币价格预测的难题。比特币那种剧烈波动，用传统方法拟合简直是一场灾难。

5. 工程参数反演的特殊挑战

5.1 材料力学中的参数反求

在桥梁健康监测中，我们需要通过形变数据反推材料参数。这涉及更复杂的模型：

def beam_deflection(x, E, I, q): """简支梁在均布载荷下的挠度模型""" return q * x * (x**3 - 2*L*x**2 + L**3) / (24*E*I) # 假设L=10m，测得5个位置的挠度 positions = np.array([2, 3, 5, 7, 8]) deflections = np.array([3.2, 5.1, 6.8, 5.0, 3.1]) # 单位mm params, _ = curve_fit(lambda x, E, q: beam_deflection(x, E, 8e-4, q), positions, deflections/1000, # 转换为m bounds=([1e7, 1e3], [1e11, 1e5]))

这个案例教会我一个重要经验：工程问题中单位一致性至关重要。曾经因为没统一单位，得出的弹性模量比钻石还高，闹了大笑话。

5.2 多参数系统的全局优化

当模型参数较多时，容易陷入局部最优解。这时需要全局优化策略：

from scipy.optimize import differential_evolution def complex_engineering_model(x, a, b, c, d, e): """某个复杂的工程系统响应模型""" return a*np.sin(b*x) + c*np.exp(-d*x) + e bounds = [(0,10), (0.1,5), (0,20), (0.01,1), (-5,5)] result = differential_evolution( lambda params: np.sum((complex_engineering_model(x_data, *params) - y_data)**2), bounds )

在汽车悬架参数识别项目中，这种方法帮我找到了传统方法遗漏的最优参数组合。不过计算成本较高，适合最终精细调参阶段。

查看全文

http://www.jsqmd.com/news/661812/