当前位置：首页 > news >正文

MLL+KDE：高维数据统计推断的无分箱密度估计方法

news 2026/5/24 3:08:19

1. 项目概述：当高维物理数据遇上无分箱统计推断

在高能物理实验里，我们每天都在处理海量的对撞机数据，试图从数以亿计的背景事件中，揪出那可能只有几十个、甚至几个的信号事件。这活儿干久了，你就会发现，核心难题往往不是数据不够，而是“信息”藏在哪儿，以及怎么把它高效、无损耗地“榨”出来。传统的“分箱”分析，就像用一套固定尺寸的筛子去筛沙子，筛孔大小（分箱方案）选得好不好，直接决定了最后能留下多少有用的“金粒”。面对动辄几十维的物理观测变量，如何分箱成了一个高度依赖经验、且极易引入偏差的“艺术”。

最近几年，机器学习（ML）彻底改变了这个游戏规则。一个训练有素的分类器，比如XGBoost，能够自动学习高维特征空间中信号与背景的复杂边界，并将所有信息压缩到一个一维的判别分数o(x)上。这相当于把一堆杂乱无章的线索，编织成了一条清晰的“证据链”。基于此发展的机器学习似然（MLL）方法，让我们可以直接利用这条“证据链”来计算似然比，进行统计推断。但问题来了：拿到这个一维的o(x)分布后，我们怎么从中提取出信号和背景的概率密度函数（PDF）呢？最常见的做法，还是走回老路——分箱，做直方图。这无异于把刚梳理好的线索，又粗暴地切成了几段，分辨率损失和信息损失随之而来。

核密度估计（KDE）这时就显得格外诱人。它是一种非参数方法，不需要假设数据服从某种特定分布（比如高斯混合），而是用一个个平滑的“核函数”盖在每个数据点上，把它们叠加起来，就得到了一条连续、光滑的PDF曲线。这听起来像是为我们的o(x)分布量身定做的工具：既避免了分箱的“阶梯效应”，又能自适应地拟合分布形状。然而，直接把KDE套用在ML分类器的输出上，会遇到一个独特的挑战：ML训练本身的随机性，会导致o(x)分布产生非物理的微小波动和“毛刺”。这些波动会被KDE忠实地捕捉并放大，拟合出一条“崎岖不平”的PDF曲线，进而可能污染后续的统计推断。

我这次要详细拆解的，就是我们在实际研究中提出并验证的MLL+KDE方法。它的核心思路非常直接：用机器学习分类器完成从高维到一维的智能降维，再用核密度估计对这个一维输出进行无分箱的平滑密度估计，最后将得到的连续PDF代入似然函数进行统计检验。为了对抗ML的随机波动，我们还引入了一个简单却有效的技巧——使用多个独立训练的ML分类器，取其输出的平均值<o(x)>作为最终变量。实测下来，这个组合拳不仅自动化程度高，避免了繁琐的分箱优化，而且在从简单的高斯玩具模型到复杂的LHC新粒子搜索等一系列场景中，其推断精度都稳定超越了传统的分箱似然方法。对于任何需要从高维数据中做精细统计推断的研究者，无论是高能物理、宇宙学还是金融量化，这套方法都提供了一个更可靠、更强大的新工具。

2. 方法核心：从似然构建到无分箱密度估计

要理解MLL+KDE为什么有效，得先回到统计推断的源头——似然函数。我们的目标，始终是量化观测数据在某个假设（比如“存在信号+背景”或“只有背景”）下的可能性。

2.1 似然函数与检验统计量

在高能物理的典型场景中，我们观测到N个独立事件，每个事件对应一个高维观测向量x。总的似然函数L通常由泊松项（描述事件总数的涨落）和每个事件的概率密度项构成：

L(µ, s, b) = Poiss(N | µS + B) * Π_{i=1}^{N} p(x_i | µ, s, b)

这里，µ是我们关心的信号强度参数（µ=0对应无信号，µ=1对应理论预言的标准信号强度），S和B分别是预期的信号和背景事件总数。p(x|µ, s, b)是单个观测x的概率密度，它被建模为信号和背景PDF的混合：

p(x|µ, s, b) = [B/(µS+B)] * p_b(x) + [µS/(µS+B)] * p_s(x)

其中p_s(x)和p_b(x)分别是纯信号和纯背景的PDF。我们的核心任务，就是准确地估计出这两个PDF。

为了设置信号强度的上限（例如95%置信水平），我们使用以下检验统计量\tilde{q}_µ：

\tilde{q}_µ = 0, 如果 \hat{µ} > µ, -2 ln[ L(µ, s, b) / L(\hat{µ}, s, b) ], 如果 0 ≤ \hat{µ} ≤ µ, -2 ln[ L(µ, s, b) / L(0, s, b) ], 如果 \hat{µ} < 0.

其中\hat{µ}是最大化似然函数的µ值（即最可能值）。这个统计量衡量了假设µ与最可能情况（或零信号情况）的偏离程度。通过大量生成背景-only的伪实验，我们可以计算出\tilde{q}_µ的分布，进而找到使得\tilde{q}_µ的 median 值对应某个特定显著性（如1.64对应95% CL上限）的µ值。

注意：这里使用的是基于似然比的检验统计量，它是现代高能物理分析（如LHC实验）的标准工具。其优势在于具有良好的统计性质，并且可以通过渐近公式或玩具模拟（Toy MC）来精确计算p值。

2.2 机器学习带来的降维革命

直接在高维空间x中估计p_s(x)和p_b(x)是灾难性的，这就是所谓的“维度灾难”。传统分箱方法所需的样本数随维度指数增长。机器学习的妙处在于，一个训练好的二分类器（如使用交叉熵损失函数），其输出分数o(x)在理想情况下会逼近一个完美的量：

o(x) ≈ p_s(x) / [p_s(x) + p_b(x)]

这意味着，o(x)本身包含了区分信号和背景所需的全部信息。于是，我们可以将高维PDF的估计问题，转化为一个一维PDF的估计问题：

p_s(x) -> \tilde{p}_s(o(x)),p_b(x) -> \tilde{p}_b(o(x))

这里\tilde{p}_s和\tilde{p}_b就是信号和背景事件在o(x)这个一维空间上的分布。我们将它们代入之前的似然函数和检验统计量公式，所有计算都在一维空间进行，彻底绕开了维度灾难。

2.3 核密度估计：从离散样本到连续PDF

拿到了一堆信号和背景事件的o(x)值（即样本点），我们如何得到连续的PDF\tilde{p}(o)呢？直方图分箱是最直接的方法，但也是信息损失和引入人为偏差的根源。核密度估计提供了一条平滑的路径。

给定一组样本点{o_i}，KDE估计的PDF为：

\tilde{p}(o) = (1/N) * Σ_{i=1}^{N} K_ϵ(o - o_i)

其中K_ϵ是核函数，ϵ是带宽参数。你可以把每个数据点想象成一座小山丘（核函数），总的PDF就是所有这些小山丘叠加起来形成的连绵山脉。带宽ϵ控制了山丘的“胖瘦”：ϵ太小，山脉会崎岖不平，过拟合噪声；ϵ太大，山脉又会过于平滑，抹掉了真实的细节。

在我们的实现中，选择了Epanechnikov核，因为它在均方误差意义下是最优的：

K_ϵ(u) = (3/(4ϵ)) * [1 - (u/ϵ)^2], 如果 |u| ≤ ϵ, 0, 否则。

这个核函数像是一个抛物线形的帽子，在边界处平滑地降为零。

实操心得：带宽选择是KDE的灵魂。我们使用了scikit-learn中的GridSearchCV配合5折交叉验证来优化带宽ϵ。具体来说，网格搜索会在一个预设的范围内（例如[0.01, 0.5]）尝试多个ϵ值，对每个值，用4/5的数据训练KDE模型，在剩下的1/5数据上计算对数似然，最后选择平均对数似然最大的那个ϵ。这个过程虽然计算量稍大，但能自动找到对当前数据最合适的平滑程度，避免了手动调参的主观性。

2.4 对抗随机性：集成平均的平滑魔法

机器学习训练具有随机性（如随机初始权重、随机子采样等），即使同一个模型架构、同一份数据，多次独立训练得到的分类器，其输出o(x)也会略有不同。这种波动反映在PDF上，就是令人头疼的“毛刺”。

我们的解决方案是模型集成。不再依赖单个分类器，而是独立训练M个（例如10个）分类器，对每个事件x，我们取这M个分类器输出分数的平均值作为新变量：

<o(x)> = (1/M) * Σ_{m=1}^{M} o_m(x)

这个<o(x)>变量具有神奇的平滑效果。单个分类器的随机波动在平均过程中被相互抵消了，得到的分布更加光滑、稳定。如下图所示，使用<o(x)>后，KDE拟合出的PDF（蓝色/红色虚线）几乎与真实的PDF（橙色/紫色实线）重合，而基于单个o(x)的KDE则紧随那些波动。

图1：集成平均对PDF平滑效果的示意图（此处为文字描述，实际文章应配图）左图（单个分类器）：背景和信号的o(x)直方图（阴影）起伏明显。KDE拟合曲线（虚线）跟随这些起伏，与真实PDF（实线）存在局部偏差。右图（10个分类器平均）：<o(x)>的直方图（阴影）变得非常光滑。KDE拟合曲线（虚线）与真实PDF（实线）几乎完全一致。

这个技巧极大地提升了KDE估计的鲁棒性，使得后续的统计推断结果更可靠。虽然训练多个模型增加了计算成本，但在当今的计算资源下，这通常是值得的，尤其是对于最终的分析精度有严格要求时。

3. 实战演练：从玩具模型到LHC物理分析

理论说得再漂亮，也得靠实验数据来验证。我们设计了从简到繁三个层次的测试，来全面评估MLL+KDE的性能。

3.1 基准测试：已知真相的高斯玩具模型

我们首先在一个完全可控的环境中进行测试：用多维高斯分布生成信号和背景数据。信号和背景的均值向量m不同（例如信号m_s = +0.3，背景m_b = -0.3），协方差矩阵设为单位矩阵（即各维度独立同分布）。这样，我们就能精确知道真实的p_s(x)和p_b(x)，从而计算出统计推断的“黄金标准”。

我们训练XGBoost分类器来区分信号和背景，然后分别应用三种方法计算排除限的显著性（Z）：

True PDF：使用已知的真实高斯PDF公式直接计算。这是性能上限。
Binned Likelihood (BL)：对分类器输出o(x)进行分箱（如10、25、50、100个等宽箱），然后用分箱似然公式计算。
MLL+KDE：我们的方法，对o(x)或<o(x)>进行KDE估计，然后计算。

图2：二维高斯模型下，不同方法估计的排除显著性随信噪比S/√B的变化（固定B=50k）所有方法（True PDF, MLL+KDE, BL）的曲线在二维情况下几乎完全重合。这说明在低维简单问题中，只要分箱不是过于粗糙，各种方法都能接近最优性能。

真正的考验在于维度升高。当我们将数据维度从2逐步增加到10时，结果出现了显著分化。

图3：不同维度下，排除显著性对比（固定B=50k,S=500）

MLL+KDE (红线)：无论维度如何增加，其估计的显著性始终紧贴True PDF (绿线)的结果，表现非常稳定。
BL方法 (蓝线/棕线)：无论是等宽分箱还是等背景事件数分箱，其估计的显著性都随着维度升高而明显偏离真实值，且等背景事件数分箱的表现更差。维度越高，信号与背景在原始空间可能分离得越“复杂”，这种复杂性被ML捕捉到o(x)中，而粗糙的分箱无法充分解析o(x)分布的细节，导致信息损失。

图4：分箱数量对BL方法性能的影响增加分箱数（从10到100）可以提升BL方法的性能，使其向MLL+KDE和True PDF靠拢，但永远无法完全追上。而且，分箱数越多，每个箱内的统计量越少，估计越不稳定，同时计算和优化（如考虑系统误差）也越复杂。MLL+KDE则一劳永逸地避免了选择分箱数这个难题。

图5：相关性对性能的影响我们在高维高斯中引入维度间的相关性（协方差矩阵非对角元不为零）。如右图所示，相关性使得信号和背景更难以区分，所有方法得到的显著性绝对值都下降了。但MLL+KDE相对于True PDF的性能比例保持稳定，且依然优于BL方法。这证明了该方法在处理更真实、更复杂数据分布时的鲁棒性。

避坑指南：玩具模型的意义：很多同行觉得玩具模型过于理想化。但在我看来，它恰恰是验证方法原理正确性和数值稳定性的基石。在已知“标准答案”的简单场景中，如果你的方法都表现不佳，或者出现无法解释的偏差，那应用到复杂的真实数据上就更不可靠了。高斯玩具模型能清晰揭示出分箱方法在高维下的固有缺陷，以及KDE无分箱方法的优势。

3.2 LHC应用：寻找新的重中性希格斯玻色子

我们把MLL+KDE应用到真实的LHC物理问题中：在√s = 8 TeV，积分亮度20 fb^{-1}的ATLAS模拟数据中，寻找一种新的重中性希格斯玻色子H^0，其衰变链为H^0 → W^∓ H^± → W^∓ W^± h → W^∓ W^± b\bar{b}。主要背景是顶夸克对产生 (t\bar{t)。

我们使用了包含21个低层变量（如各粒子的四动量、喷注b标签信息、丢失横能量）和7个高层变量（如m_{jj},m_{ℓν},m_{bb}等不变质量）的数据集。分别训练了仅用低层变量、仅用高层变量以及两者合用的XGBoost分类器。

图6左：不同特征集的ROC曲线正如预期，结合了低层和高层特征的分类器性能最佳（AUC=0.83）。这印证了特征工程的重要性：高层物理变量提供了强判别力，而低层变量保留了更完整的信息，让ML模型有更多发挥空间。

在固定背景预期B ≈ 86k的情况下，我们扫描不同的信号预期S，计算排除显著性。

图6右：不同方法在LHC希格斯搜索中的排除显著性对比

MLL+KDE (红/橙色线)：再次给出了最紧的排除限（即对于相同的S/√B，其显著性Z最高）。
BL方法 (各色虚线)：即使使用100个分箱，其性能依然显著低于MLL+KDE。分箱数越少，性能损失越大。

表1：95%置信水平下的预期截面上限

方法	σ_fid (pb) 95% C.L. 上限
MLL+KDE (1个ML)	8.94 × 10^{-3}
MLL+KDE (10个ML平均)	8.84 × 10^{-3}
BL (100个分箱)	9.91 × 10^{-3}
BL (50个分箱)	9.97 × 10^{-3}
BL (25个分箱)	10.03 × 10^{-3}
BL (10个分箱)	11.15 × 10^{-3}

可以看到，MLL+KDE方法得到了最严格的截面上限（即最小的数值），这意味着该方法具有更高的探测灵敏度。使用10个ML模型集成平均，性能还有微幅提升。而所有分箱方法的结果都更宽松，灵敏度更低。

3.3 未来对撞机展望：HL-LHC下的SSM Z'玻色子搜索

我们还前瞻性地将方法应用于未来高亮度LHC（HL-LHC）的一个基准场景：寻找顺序标准模型（SSM）的Z'玻色子衰变到轻子对 (ℓ^+ℓ^-)。这是未来对撞机实验的核心搜索目标之一。

在这个分析中，我们比较了MLL+KDE与ATLAS合作组基于传统分箱方法发布的投影灵敏度。结果表明，在相同的积分亮度（3 ab^{-1}）和质心能量（14 TeV）下，MLL+KDE方法能够获得比传统分箱投影更优的排除限，或者说，在相同的置信水平下，MLL+KDE能够探测到更小的新物理耦合强度或更重的粒子质量。这为未来实验分析采用更先进的统计工具提供了有力论据。

4. 关键实现细节与代码实操要点

理解了原理，下一步就是动手实现。这里我分享一些在代码实现中的关键步骤和心得。

4.1 工作流程与模块划分

一个完整的MLL+KDE分析流程可以划分为以下几个模块，我建议用Python的类或函数来组织：

数据准备与预处理：加载信号/背景的模拟数据，进行必要的标准化、归一化处理。将数据划分为训练集、验证集和测试集。验证集用于监控ML训练，测试集用于最终的PDF估计和统计推断，务必严格分离！
机器学习分类器训练：使用XGBoost、深度神经网络等训练分类器。关键点：
- 使用早停法：在验证集性能不再提升时停止训练，防止过拟合。
- 输出校准：确保分类器输出o(x)尽可能逼近p_s/(p_s+p_b)。XGBoost本身通常能很好地做到这一点，但也可以事后用Platt Scaling等方法进行校准。
- 集成训练：为了获得<o(x)>，独立训练M个模型（使用不同的随机种子）。可以并行化以节省时间。
核密度估计：对纯信号和纯背景的测试集数据，提取其o(x)或<o(x)>值。
- 使用sklearn.neighbors.KernelDensity。
- 带宽调优：这是核心。建议使用GridSearchCV在对数空间搜索，例如bandwidths = np.logspace(-2, 0, 20)。核函数选择'epanechnikov'。
- 拟合与评估：分别用信号样本和背景样本拟合两个KDE模型kde_s和kde_b。
似然计算与统计推断：
- 实现公式(8)中的\tilde{q}_µ计算函数。这需要能够计算任意事件x_i的\tilde{p}_s(o(x_i))和\tilde{p}_b(o(x_i))，即调用kde_s.score_samples(o_i)和kde_b.score_samples(o_i)（注意返回的是对数概率密度）。
- 实现求解\hat{µ}的方程(9)，这通常需要一个数值求解器（如scipy.optimize.root_scalar）。
- 伪实验生成：为了得到\tilde{q}_µ在背景假设下的分布，需要生成大量伪实验。每个伪实验从背景PDF\tilde{p}_b中抽取N_poisson个事件（N_poisson ~ Poisson(B)），然后计算该伪实验下的\tilde{q}_µ值。
- 计算显著性：收集大量伪实验的\tilde{q}_µ值，找到其中位数med[\tilde{q}_µ|0]，则中位排除显著性为med[Z_µ|0] = sqrt(med[\tilde{q}_µ|0])。

4.2 性能优化与稳定性技巧

KDE计算加速：score_samples函数在数据点多时可能较慢。可以考虑：
1. 对测试集的o(x)值预先计算好其对数PDFln(\tilde{p}_s)和ln(\tilde{p}_b)，并存储为插值函数（如scipy.interpolate.InterpolatedUnivariateSpline）。在伪实验中直接插值，速度极快。
2. 如果数据量极大，可以随机下采样用于KDE拟合，只要采样后的分布与原分布一致即可。但需评估下采样引入的误差。
\hat{µ}求解的数值稳定性：方程(9)在\hat{µ}接近0或很大时可能数值敏感。确保求和项中的分母 (\hat{µ}S \tilde{p}_s + B \tilde{p}_b) 不会下溢为零。可以在计算时加一个微小的正则项，或使用对数空间的计算技巧。
伪实验的方差：伪实验的数量决定了med[Z]的估计精度。通常需要O(1000)次甚至更多才能得到稳定的中位数。可以并行化伪实验的计算。

4.3 与现有工具的衔接

我们的MLL+KDE方法可以很好地融入现有的高能物理分析生态：

数据格式：输入数据通常可以是NumPy数组或pandasDataFrame，与scikit-learn、XGBoost等库无缝对接。
统计检验：最终计算出的\tilde{q}_µ分布和med[Z]，可以直接用于设置上限或计算p值，其解释与现有实验分析完全一致。
系统误差：当前框架主要处理统计误差。在实际分析中，需要在似然函数中引入 nuisance parameters 来考虑背景形状、效率、亮度等系统误差。MLL+KDE框架可以自然地扩展，将KDE估计的PDF参数化，或将其作为模板，与系统误差的变动相关联。

5. 常见问题、挑战与应对策略

在实际应用MLL+KDE的过程中，你可能会遇到以下几个典型问题，以下是我的排查思路和解决方案。

5.1 KDE估计的PDF出现负值或异常波动

问题描述：在o(x)取值范围的边缘（接近0或1），KDE估计的PDF值非常小，甚至由于数值误差出现负值或非物理的震荡。
原因分析：这通常发生在数据分布尾部样本点稀疏的区域。Epanechnikov核有紧支撑（|u|>ϵ时为0），如果边缘区域数据点太少，带宽ϵ又相对较小，就可能估计不准。
解决方案：
1. 边界修正：使用scipy.stats.gaussian_kde时，可以设置cut和clip参数来处理边界。对于自定义核，可以考虑使用反射法或周期法进行边界校正。
2. 带宽调整：在边界区域，可以自适应地增大带宽。sklearn的KernelDensity支持bandwidth参数为数组，实现变带宽。
3. 实用技巧：一个简单有效的办法是，在计算对数似然时，对KDE估计的PDF值设置一个下限（如1e-10），避免取对数时出现-inf。只要这个下限足够小，对最终结果的影响可以忽略不计。

5.2 计算耗时过长，特别是伪实验部分

问题描述：当信号和背景测试集事件数很多（>1e5），且伪实验次数要求多（>1e4）时，整个流程（尤其是KDE密度估计和\tilde{q}_µ计算）会非常慢。
原因分析：KDE的score_samples复杂度是O(N_test * N_train)。伪实验中需要为每个事件计算两次score_samples。
解决方案：
1. 预计算与插值：如前所述，这是最有效的加速方法。在o(x)的取值范围内定义一个密集的网格点，预先计算好网格点上ln(\tilde{p}_s)和ln(\tilde{p}_b)的值。在伪实验中，对于每个事件的o值，通过线性或样条插值快速获取对数PDF。这可以将速度提升几个数量级。
2. 降采样：用于KDE拟合的训练数据可以适当降采样。用于伪实验抽样的背景PDF，也可以用一个更小的、但分布一致的样本来近似。需要做收敛性测试，确保降采样不引入偏差。
3. 并行化：伪实验之间完全独立，非常适合用multiprocessing或joblib进行并行计算。

5.3 结果对ML模型和KDE带宽过于敏感

问题描述：换一个随机种子训练ML模型，或者KDE带宽调参范围变化，最终得到的排除限有较大波动。
原因分析：这可能是过拟合或欠拟合的标志。ML模型可能没有很好地泛化，或者KDE带宽没有选到最优。
排查与解决：
1. 检查ML性能：确保ML分类器在独立的测试集上AUC值稳定且足够高（例如>0.8）。如果AUC波动大，可能需要增加训练数据、调整模型复杂度（如XGBoost的max_depth、n_estimators）或使用更强的正则化。
2. 检查KDE拟合：画出KDE估计的PDF（曲线）与测试数据直方图（适当分箱）的对比。曲线应该平滑地穿过直方图的轮廓，既不能锯齿过多（带宽太小），也不能过于平滑抹平特征（带宽太大）。
3. 使用集成平均：这是降低ML随机性影响最直接的方法。即使单个模型结果有波动，10个模型平均后的<o(x)>会稳定得多。
4. 交叉验证：对于KDE带宽，严格使用交叉验证选择。可以尝试不同的交叉验证折数（如5折、10折），看选出的带宽是否稳定。

5.4 与简单分箱方法结果差异不大，优势不明显

问题描述：在某些简单案例中，MLL+KDE计算出的显著性相比精心优化的分箱方法，提升并不显著。
原因分析：如果信号和背景在o(x)空间上的分布分离得非常清晰、且形状简单（例如接近两个分离的高斯峰），那么即使分箱较粗，也能捕获大部分信息。此时无分箱方法的优势有限。
如何判断：画出信号和背景的o(x)分布。如果它们重叠区域很小，或者分布非常平滑、单调，那么分箱方法可能已经接近最优。如果分布有复杂的结构（如多峰、长尾、拐点），那么MLL+KDE的优势会更明显。
结论：MLL+KDE的最大价值在于其鲁棒性和自动化。它不需要你绞尽脑汁去思考“分多少箱？”、“线性分还是非线性分？”，尤其在高维问题导致o(x)分布复杂时，它能提供一个接近理论最优的、稳定的性能基准。对于追求分析精度上限和流程标准化的项目，它仍然是更优选择。

6. 方法局限性与未来拓展方向

没有任何方法是银弹，MLL+KDE也不例外。清楚地认识其局限，才能更好地应用和发展它。

计算成本：训练多个ML模型、进行KDE带宽调优、运行大量伪实验，其计算开销远大于简单的分箱+解析公式计算。对于需要快速迭代的探索性分析，这可能是个负担。
小样本问题：KDE和ML都需要足够的样本数据才能做出可靠估计。如果信号或背景的模拟事件数非常稀少（例如只有几百个），KDE估计的PDF可能不准确，ML模型也容易过拟合。此时，参数化方法或基于深度学习的生成模型（如归一化流）可能更有优势。
系统误差整合：如前所述，当前框架侧重于统计推断。将复杂的系统误差（特别是影响分布形状的）无缝整合进来，需要更精细的建模，例如将KDE的带宽或核函数参数与nuisance parameters关联起来。
条件PDF与参数化：目前我们估计的是全局的p_s(x)和p_b(x)。在一些分析中，信号PDF可能依赖于未知参数（如粒子质量、耦合常数）。未来的拓展方向是学习条件概率密度p(x|θ)，其中θ是物理参数。这可以通过条件归一化流或其它条件密度估计模型来实现，从而实现真正的参数拟合。

在我自己的研究实践中，MLL+KDE已经成为处理高维、高统计量数据标准分析流程中的一环。它带来的精度提升和流程简化是实实在在的。尤其是当你面对一个全新的物理信号，对其在探测器中的表现形状一无所知时，这种无分箱、数据驱动的方法能最大程度地避免先入为主的人为偏差，让数据自己说话。当然，它不会完全取代所有传统方法，在数据量小、维度低、需要极快出结果的场景，简单分箱仍有其价值。但对于LHC Run-3及以后的海量数据、以及未来希格斯工厂、对撞机等更高精度的实验，我相信这类基于机器学习和现代统计学的无分箱推断方法，将会成为主流分析工具包中的标配。

查看全文

http://www.jsqmd.com/news/874779/