当前位置：首页 > news >正文

从机器学习实战看贝叶斯与频率学派的融合与分野

news 2026/6/17 16:39:23

1. 两大学派的思想碰撞：从参数估计说起

第一次接触贝叶斯和频率学派时，我正试图理解逻辑回归的参数估计原理。当时教材里突然冒出的"最大似然估计"让我一头雾水——为什么要把概率乘积最大化？这个问题直接把我带进了两大学派的思想漩涡。

频率学派像是个严谨的实验科学家。他们认为参数是固定但未知的常量，数据才是随机变量。就像测量重力加速度，真实值客观存在，我们通过反复实验来逼近它。在逻辑回归中，最大似然估计就是这种思想的典型体现：通过观察到的数据，找到最可能产生这些数据的参数值。我常用这个例子向新手解释：假设你抛了10次硬币出现7次正面，频率学派会说"出现正面的概率最可能是0.7"，因为他们只相信眼前的数据。

贝叶斯学派则像是个善于融合经验的智者。他们大胆地把参数本身看作随机变量，引入先验分布来表达对参数的初始认知。还记得我第一次用贝叶斯方法改进推荐系统时，当系统对新用户一无所知时，我会给它一个基于全体用户的先验分布。随着用户行为数据积累，后验分布会不断调整。这就像医生诊断：先根据医学常识有个初步判断（先验），再结合检查结果（似然）给出最终诊断（后验）。

2. 实战中的模型构建差异

在真实项目中，两派的分歧会直接体现在代码层面。去年优化风控模型时，我同时尝试了两种方法，收获颇丰。

频率学派的逻辑回归实现起来直截了当。用sklearn只需要几行代码：

from sklearn.linear_model import LogisticRegression model = LogisticRegression(penalty='l2') model.fit(X_train, y_train)

但背后藏着重要假设：我们相信存在一组最优参数，L2正则只是在防止过拟合。调参时关注的验证集准确率，本质上是在评估参数估计的频率性质。

换成贝叶斯逻辑回归，代码就变得不一样了。我用PyMC3实现时，需要明确指定先验分布：

import pymc3 as pm with pm.Model() as bayesian_logit: # 先验分布 alpha = pm.Normal('alpha', mu=0, sd=10) betas = pm.Normal('betas', mu=0, sd=10, shape=X.shape[1]) # 似然函数 p = pm.math.sigmoid(alpha + pm.math.dot(X, betas)) likelihood = pm.Bernoulli('y', p=p, observed=y) # 采样 trace = pm.sample(2000)

这里每个参数都有自己的概率分布，输出不再是单一值而是分布区间。在风控场景中，这种不确定性量化特别有用——当系统拒绝某个用户时，我能清楚知道这个决策的置信度。

3. 不确定性处理的哲学差异

两派对不确定性的处理方式，直接影响了模型的应用方式。在医疗诊断项目中，这个差异尤为明显。

频率学派的置信区间是基于重复抽样思想的。比如开发癌症预测模型时，我们会说"在95%的重复实验中，这个区间会包含真实参数"。但客户常误解为"有95%概率包含真实值"，这其实是贝叶斯的解释。我不得不反复解释：频率学派的概率指的是方法本身的长期性质，而非特定结论的可信度。

贝叶斯的可信区间(credible interval)就更符合直觉。去年开发病程预测系统时，我们给出"患者3个月内恶化概率在20%-30%之间"的结论时，临床医生立即理解了其含义。贝叶斯方法允许我们直接对参数概率进行陈述，这在需要决策支持的场景中优势明显。

一个有趣的对比是A/B测试。频率学派会计算p值来判断差异是否显著，而贝叶斯方法会给出"方案A优于方案B的概率"。后者往往更容易被业务方理解，但也更容易受到先验选择的影响。我的经验是：当数据量充足时，两派结论通常一致；但在小数据场景，贝叶斯方法能更早给出有意义的结论。

4. 模型解释的两种视角

特征重要性分析是模型解释的关键环节，这里两大学派又分道扬镳了。

频率学派注重参数的统计显著性。在线性回归中，我们会看系数的p值，判断特征是否真的与目标相关。但这种方法容易受多重检验影响——当特征很多时，总会有一些偶然显著的假阳性。我在金融反欺诈项目中就遇到过这种情况：某些看似显著的特征在跨时间验证时完全失效。

贝叶斯方法通过正则化先验自然地处理了这个问题。使用马蹄先验(horseshoe prior)时，无关特征的系数会被强烈收缩向零。更妙的是，我们可以直接考察系数的后验分布。比如在商品推荐系统中，能看到"价格敏感度有80%概率是正值"这样的结论，这对业务决策特别友好。

不过贝叶斯方法也有软肋。先验选择的主观性常引发争议。有次在团队评审时，我的先验设置就被质疑过于乐观。后来我们开发了一套基于历史数据的先验校准方法，用频率学派的方法来约束贝叶斯的先验，意外获得了不错的效果。

5. 超参数优化中的学派融合

贝叶斯优化(BO)是现代调参的利器，但它其实融合了两派思想。我在Kaggle比赛中深刻体会到了这一点。

传统网格搜索是纯频率学派的——遍历参数空间寻找最优解。随机搜索稍好，但依然低效。而BO用高斯过程建模目标函数，这就是贝叶斯思想的体现：把未知函数看作随机过程，用观测数据更新认知。

但采集函数(acquisition function)的设计又回到了频率学派。比如EI(Expected Improvement)关注的是期望提升量，这本质上是频率学派的期望值计算。我常用的实现是这样的：

from skopt import gp_minimize res = gp_minimize( lambda params: -evaluate_model(params), dimensions=[(1e-5, 1e-1, 'log-uniform'), # 学习率 (1, 100)], # 树深度 n_calls=50, acq_func='EI', random_state=42 )

这种融合非常实用：用贝叶斯方法建模不确定性，用频率学派方法做决策。在计算资源有限时，BO通常比随机搜索快2-3倍找到好参数。

6. 计算效率的取舍之道

实际工程中，计算成本常常迫使我们做出折中选择。频率学派方法通常更轻量，这也是scikit-learn等库默认采用频率方法的原因。

朴素贝叶斯分类器是个典型例子。虽然名为"贝叶斯"，但实际实现往往省略了真正的贝叶斯计算：

from sklearn.naive_bayes import GaussianNB model = GaussianNB() model.fit(X_train, y_train)

这里的参数估计其实用的是最大似然（频率学派方法），因为完整贝叶斯计算需要积分，在小数据时差异明显，大数据时计算成本过高。我的经验法则是：当特征维度超过50或数据量超过1M，先用频率方法快速验证想法。

但有些场景必须用贝叶斯。比如在线学习时，数据是流式到达的。贝叶斯框架天然支持增量更新：

with pm.Model() as online_model: # 初始先验 theta = pm.Beta('theta', alpha=prior_alpha, beta=prior_beta) # 增量更新 for batch in data_stream: obs = pm.Bernoulli('obs', p=theta, observed=batch) trace = pm.sample(update_model=True)

这种能力在实时竞价系统中有巨大价值。我们每天处理上亿次请求，模型每15分钟更新一次，贝叶斯方法提供了优雅的解决方案。

7. 融合应用的实战智慧

真正的高手不会拘泥于学派之争。在我参与的一个金融风控项目中，两派方法的组合产生了奇效。

项目初期用频率学派方法快速筛选特征。通过L1正则化逻辑回归，从2000多个特征中筛选出30个重要特征。然后对这30个特征构建贝叶斯分层模型：

with pm.Model() as hierarchical_model: # 超先验 mu_alpha = pm.Normal('mu_alpha', mu=0, sd=10) sigma_alpha = pm.HalfNormal('sigma_alpha', sd=10) # 分组系数 alpha = pm.Normal('alpha', mu=mu_alpha, sd=sigma_alpha, shape=n_groups) beta = pm.Normal('beta', mu=0, sd=10, shape=n_features) # 似然 p = pm.math.sigmoid(alpha[group_idx] + pm.math.dot(X, beta)) pm.Bernoulli('y', p=p, observed=y)

这种结构特别适合处理不同地区分行的数据差异。超先验mu_alpha和sigma_alpha让各分行的参数既共享信息又保持灵活。最终模型在跨区域测试中表现优异，比纯频率方法提升15%的召回率。

另一个融合案例是深度学习中。我们在BERT微调时，对最后一层采用贝叶斯方法，其余层保持频率学派训练。这样既获得了不确定性估计，又控制了计算成本。关键代码如下：

# 传统BERT层 bert_model = TFBertModel.from_pretrained('bert-base-uncased') # 贝叶斯输出层 inputs = tf.keras.Input(shape=(None,), dtype=tf.int32) bert_output = bert_model(inputs)[0] output_dist = tfp.layers.DenseVariational( units=1, make_prior_fn=lambda *args: tfd.Normal(loc=0, scale=1), make_posterior_fn=lambda *args: tfp.util.TransformedVariable( initial_value=tf.random.normal(shape=args), bijector=tfp.bijectors.Identity(), dtype=tf.float32), kl_weight=1/X_train.shape[0] )(bert_output)

这种混合架构在文本情感分析任务中，既保持了BERT的强大表征能力，又通过贝叶斯输出层提供了每个预测的置信度，特别适合需要风险控制的金融场景。

查看全文

http://www.jsqmd.com/news/654891/