当前位置：首页 > news >正文

增长曲线模型缺失数据处理：传统统计方法为何优于机器学习插补？

news 2026/7/18 2:47:59

1. 项目概述与核心问题

在纵向研究、心理学追踪调查或者任何涉及重复测量的领域，我们常常会构建增长曲线模型来刻画个体随时间变化的轨迹。然而，一个几乎无法回避的“拦路虎”就是缺失数据。无论是被试中途退出，还是某次测量因故未能完成，这些缺失值就像拼图里丢失的碎片，直接影响到我们对模型参数——比如平均增长率和个体间差异——估计的准确性。过去，我们工具箱里的主力是像全信息最大似然估计和两阶段稳健估计这类基于统计模型的方法。近年来，随着机器学习的热潮，K近邻、随机森林等插补技术也被引入这个领域，它们以灵活、非参数著称，听起来似乎能更好地处理复杂的数据关系。但一个很实际的问题摆在我们面前：在这些专门为纵向数据设计的模型里，这些时髦的机器学习方法，真的比“老派”的传统方法更好用吗？还是说，它们在某些情况下反而会“水土不服”？

最近，一项大规模的模拟研究深入探讨了这个问题。研究在增长曲线模型的框架下，设置了140种不同的数据条件（涵盖不同样本量、缺失率、数据分布和缺失机制），对六种方法进行了超过175万次独立分析。结果有些出人意料：在处理常见的随机缺失数据时，传统的两阶段稳健估计方法表现最为稳健；而在更棘手的非随机缺失情况下，全信息最大似然估计虽然也非完美，但相对而言是更可靠的选择。相比之下，包括KNN、missForest在内的几种机器学习方法，其表现并不稳定，尤其在数据非正态、缺失率较高时，估计偏差可能会急剧增大。这提示我们，在纵向建模这个特定战场上，工具的选择不能盲目追新，必须深刻理解数据特性与方法的匹配度。

2. 核心方法原理与选型逻辑

在深入对比之前，我们有必要先厘清这几类方法的“底牌”，明白它们各自是怎么工作的，以及为什么在纵向数据场景下会有不同的表现。

2.1 传统方法：基于模型的“精算师”

传统方法的核心思想是将缺失数据机制整合到统计模型本身的估计过程中，而不是先插补再分析。

全信息最大似然估计是结构方程模型中的标准方法。它不直接“创造”数据，而是基于观测到的所有数据点，直接最大化模型的似然函数。即使某些个体的数据在某个时间点缺失，只要该个体在其他时间点有数据，其信息就会被纳入似然函数的计算中。FIML假设数据缺失机制是可忽略的，这意味着缺失与否可能与观测到的变量有关，但与未观测到的缺失值本身无关。它的优势在于效率高，能提供一致的估计，并且能自然地处理任意模式的缺失。但它的“阿喀琉斯之踵”是对模型设定和分布假设（尤其是多元正态性）比较敏感。

两阶段稳健估计则可以看作是FIML的一个稳健升级版。它同样基于观测数据直接进行模型拟合，但在估计过程中采用了稳健的估计量（如稳健标准误或Satorra-Bentler校正），以减少数据非正态性对结果的影响。TSRE可以理解为“戴着防护手套的FIML”，它在保持FIML模型框架优点的同时，增强了对现实世界中常见非正态数据的耐受性。

2.2 机器学习方法：基于模式的“模式识别器”

机器学习方法则走了另一条路：先插补，后分析。它们的目标是基于数据中观测部分所呈现的模式和关系，为每个缺失值“猜”一个最可能的值。

K近邻是最直观的插补方法之一。对于一个有缺失值的个案，KNN会在数据集中寻找与它最相似的K个“邻居”（通常基于欧氏距离等度量），然后用这些邻居在该变量上的观测值的均值或众数来填补缺失。它的逻辑简单，计算速度快，但对于高维数据或存在复杂交互关系的数据，寻找“真邻居”可能变得困难。

missForest是一种基于随机森林的非参数插补方法。它通过迭代过程进行插补：首先用均值等简单方法初始化缺失值，然后构建随机森林模型，用其他变量来预测每一个含缺失值的变量，并用预测值更新缺失值，如此循环直至收敛。随机森林能自动捕捉非线性关系和交互效应，理论上对复杂数据结构很友好。

miceForest和micecart都属于链式方程的多重插补框架。MICE的核心思想是为每一个含缺失值的变量单独建立一个预测模型（即一个“方程”），这些方程通过迭代彼此链接。miceForest在MICE框架内使用随机森林作为每个方程的预测器，而micecart则使用分类与回归树。它们能产生多个插补数据集，从而在最终分析中考虑由于插补带来的不确定性。

注意：这里存在一个关键的技术分野。传统方法（FIML/TSRE）是模型驱动的，缺失数据处理与增长曲线模型估计是一体化的过程。而机器学习方法是数据驱动的，插补阶段完全独立于后续要拟合的增长曲线模型。这个根本差异，是导致它们在纵向建模场景下表现分化的核心原因之一。

2.3 模拟研究中的超参数调优

为了让对比公平，研究中对机器学习方法的超参数进行了优化。最终选定的配置是：KNN的最近邻数量为5，missForest和miceForest的树数量为10，micecart的树节点数为5。这些参数通过网格搜索确定，旨在各种条件下平衡方法的偏差和方差。这也提醒我们，在实际应用机器学习插补时，超参数调优是一个不可省略的步骤，不同的设置可能导致结果差异。

3. 评估框架与结果深度解析

如何判断一个方法好还是不好？研究采用了两个在模拟研究中非常经典的指标：相对偏差和均方误差。

相对偏差衡量的是参数估计值的平均值与真实参数值之间的差异，以百分比表示。公式为：RB = 100% × (平均估计值 - 真实值) / 真实值。通常，|RB| < 10%被认为是可接受的偏差。这个指标告诉我们估计值是否“瞄得准”。

均方误差则同时考虑了估计的偏差和方差，计算的是估计值与真实值之间差异的平方的平均值。公式为：MSE = 平均( (估计值 - 真实值)^2 )。MSE越小，说明估计量既准确又精确。这个指标告诉我们估计值是否“扎得稳”。

基于这两个指标，研究得出了非常细致且有启发性的结论。

3.1 整体表现：传统方法更胜一筹

一个概括性的结论是：在增长曲线模型处理缺失数据时，传统方法（FIML和TSRE）的整体表现通常优于机器学习方法（KNN， missForest， miceForest， micecart）。并且，多重插补方法（miceForest， micecart）的表现通常优于单次插补方法（KNN， missForest）。

这个结论可能挑战了许多人“机器学习更强大”的直觉。原因在于，增长曲线模型有特定的数据结构（重复测量、个体内相关）和模型形式（潜变量增长）。FIML和TSRE是专门为这类模型设计的，它们在估计过程中直接利用了模型的完整结构信息。而通用的机器学习插补方法，在插补时并不知道你后续要拟合什么模型，它们只是尽力还原变量间的联合分布，可能会忽略或扭曲对增长曲线模型至关重要的时间序列结构和潜变量关系。

3.2 不同缺失机制下的方法选择

对于随机缺失数据：TSRE是首选方法。当数据服从正态分布、t分布或带有少量异常值的正态分布时，FIML的表现与TSRE相当。但当数据严重偏态（如对数正态分布）时，TSRE的稳健性优势就体现出来了，特别是在高缺失率下，其均方误差显著低于其他方法。机器学习方法仅在缺失率很低（例如2.5%）时才能产生可接受的偏差，一旦缺失率上升到15%或30%，其估计偏差会急剧恶化。

对于非随机缺失数据：这是一个更严峻的挑战。研究发现，FIML是六种方法中相对最好的选择。但必须清醒认识到，这里的“最好”也只是“矮子里面拔将军”。在MNAR机制下，即使使用FIML，也只有在缺失率很低时才能获得可接受的偏差。随着缺失率升高，所有方法的偏差都会大幅增加。这意味着，当数据缺失很可能是非随机时（例如，成绩越差的学生越可能逃避后续测试），任何简单的插补或模型方法都可能失效，需要考虑更专门的模型，如选择模型或模式混合模型。

3.3 关键影响因素剖析

研究的价值在于它没有停留在“谁好谁坏”的结论上，而是深入揭示了哪些因素会调节方法的性能：

样本量：对于MAR数据，FIML和TSRE的性能在不同样本量下非常稳定。而机器学习方法的准确性随样本量增大而改善，但这种改善仅在低缺失率时明显。在高缺失率下，单纯增加样本量对提升机器学习方法的性能帮助有限。对于MNAR数据，所有方法的准确性都随样本量增加而提高，但同样，只有在低缺失率时才能达到可接受水平。
缺失率：这是影响最大的因素之一。对于MAR数据，FIML和TSRE对缺失率的变化表现出惊人的稳健性，即使在30%的高缺失率下，其相对偏差也能保持在5%以内。而机器学习方法的性能则对缺失率极为敏感，其偏差随缺失率上升而快速增大。在MNAR机制下，所有方法都对缺失率敏感，高缺失率会导致严重的估计偏差。
数据分布：数据是否服从正态分布至关重要。对于正态、t分布或含少量异常值的数据，FIML和TSRE表现优异。对于高度偏态的对数正态分布，TSRE的优势更加明显。机器学习方法在非正态数据下的表现波动很大，missForest仅在样本量极大（N≥1000）且缺失率极低的MNAR情况下，才对对数正态数据表现出一定的优势。

实操心得：这个研究给我们最直接的启示是，不要盲目崇拜机器学习。在处理纵向缺失数据时，首先应该尝试FIML或TSRE。尤其是在使用Mplus、lavaan等软件拟合增长曲线模型时，直接使用其内置的FIML功能是最方便、也往往是最可靠的选择。只有当你有非常充分的理由（例如，确信数据是MCAR机制，且变量间关系极度复杂非线性），并且缺失率很低时，才需要考虑机器学习插补作为备选，并且必须谨慎评估其效果。

4. 实证案例演示与操作解读

理论需要联系实际。研究用一个真实的例子展示了如何应用这些方法。数据来自全美青少年纵向调查，包含399名学童从1997年到2000年共四年的数学成绩测试分数，存在5.5%到12.3%不等的缺失。

4.1 数据准备与描述分析

首先，对四年来的数学成绩进行描述性统计和正态性检验。结果显示，各年份分数的偏度和峰度都偏离了正态，Shapiro-Wilk检验也显著，表明样本数据非正态。这是一个非常重要的前置判断，因为它会影响方法的选择——既然数据非正态，那么对非正态更稳健的TSRE方法就比标准的FIML更具吸引力。

4.2 模型拟合与结果对比

研究者用线性增长曲线模型来拟合数据，分别应用六种缺失数据处理方法。模型估计了几个关键参数：平均初始水平、平均增长速度、初始水平的方差、增长速度的方差以及两者的协方差。

从结果表中可以观察到一些有趣的现象：

点估计的相似性：六种方法得到的平均截距和平均斜率的估计值非常接近（例如平均斜率在3.10到3.21之间），这说明在低缺失率下，不同方法对固定效应的估计可能差异不大。
标准误的差异：虽然点估计相近，但标准误的估计存在细微差别，这会影响显著性检验。
关键分歧点：最引人注目的差异出现在随机斜率方差的估计上。micecart方法估计的随机斜率方差为4.69，且不显著，这意味着它认为学生之间的增长速度没有显著差异。而其他五种方法（包括FIML、TSRE和另外三种机器学习方法）估计的方差在5.83到7.31之间，且都是显著的。这揭示了一个严峻的现实：选择不同的缺失数据处理方法，有时可能导致完全相反的统计结论。

4.3 如何做出选择？

面对六种方法的不同结果，实践中该如何抉择？研究者的决策逻辑非常值得借鉴：

判断缺失机制：首先承认，在实证研究中，我们几乎无法通过统计检验确切区分MAR和MNAR。这是一个需要基于研究设计和领域知识进行判断的问题。
参考模拟证据：本研究的模拟结果表明，对于MAR数据，TSRE是首选；对于MNAR数据，FIML相对更好。同时，模拟也指出，在缺失率小于15%的情况下，FIML和TSRE的表现相近。
结合当前数据特点：本例中缺失率最高为12.28%，小于15%。且数据明显非正态。因此，研究者选择了对非正态更稳健的TSRE作为最终报告结果的方法。

基于TSRE的结果，我们可以得出结论：1997年学生的平均初始数学能力约为61.04分，之后每年平均增长约3.20分。并且，学生之间在初始水平和增长速度上均存在显著的个体差异（方差显著），但初始水平与增长速度之间的协方差为负且不显著，说明初始能力高的学生增长更快的趋势并不明显。

5. 讨论、局限与未来方向

这项研究通过系统性的模拟，为我们选择增长曲线模型中的缺失数据处理方法提供了强有力的实证依据。其核心发现——传统模型方法往往优于通用机器学习插补方法——可能与许多人的预期相悖，但却有深刻的合理性。

5.1 为何机器学习在此处“失灵”？

场景错配：许多证明机器学习插补优越性的研究，其场景是横截面数据、完全随机缺失或分类变量。而增长曲线模型是纵向数据，常面临随机或非随机缺失，且变量多为连续型。机器学习方法在它们熟悉的场景（如图像补全、横截面数据插补）中表现出色，但纵向数据的时序依赖性和潜变量结构是其“知识盲区”。
模型信息缺失：FIML/TSRE是“全知”的，它们在估计时就知道最终要拟合的是增长曲线模型。而机器学习插补是“盲目”的，它只看到一堆变量，不知道哪个是时间，哪个是重复测量，更不知道潜变量的存在。插补阶段丢失的结构信息，在后续建模中无法找回。
对非正态和高缺失率的脆弱性：机器学习方法，尤其是基于树的方法，在数据分布严重偏离正态或缺失率很高时，其插补过程可能变得不稳定，容易累积误差。

5.2 研究的启示与边界

这项研究的一个明确启示是：在纵向建模中，应优先使用与模型一体化的传统方法（如TSRE、FIML），而非事后的通用插补方法。特别是在使用Mplus、R的lavaan或nlme、lme4包时，应充分利用其内置的基于最大似然的缺失数据处理功能。

同时，我们也要看到本研究的边界：

模型设定正确：模拟中数据生成模型与分析模型一致。现实中模型可能误设，此时机器学习方法的相对表现是否会变化，需要进一步研究。
关注连续数据：研究主要针对连续型结局变量。对于序数或分类数据，结论是否适用尚不确定。
测量次数固定：研究未大幅变动测量次数，但预实验表明测量次数对方法相对性能影响不大。

5.3 给实践者的建议清单

结合研究发现和个人经验，在处理增长曲线模型中的缺失数据时，我建议遵循以下流程：

第一步：描述与诊断
- 详细报告各时间点的缺失率。
- 尽一切可能通过设计（如激励、追踪）减少缺失。
- 基于理论和数据收集过程，谨慎判断缺失机制更可能是MAR还是MNAR。
第二步：方法选择与实施
- 默认首选：使用能够处理缺失数据的软件（如Mplus， lavaan），直接采用FIML进行模型估计。这是最标准、最便捷的做法。
- 数据非正态时：如果数据呈现明显的非正态性（偏态、峰态、存在异常值），优先考虑使用TSRE或提供稳健标准误的FIML估计。
- 考虑机器学习插补时：仅在以下条件同时满足时，可将其作为敏感性分析的一部分：
  - 有强烈理由相信缺失是MCAR，或MAR但缺失率很低（如<5%）。
  - 样本量非常大（如N > 1000）。
  - 你怀疑变量间存在极其复杂的非线性、交互关系，且传统线性模型可能无法捕捉。
  - 你必须使用一个不支持FIML的特定模型或软件。
- 面对MNAR的警惕：如果怀疑是MNAR，需明白FIML也只是相对较好的选择，结论需格外谨慎。应强烈考虑使用专门的MNAR模型（如选择模型、模式混合模型），或进行广泛的敏感性分析。
第三步：报告与解释
- 明确报告所使用的缺失数据处理方法及理由。
- 如果可能，呈现不同方法（如FIML vs. 多重插补）的结果对比，作为稳健性检验。
- 在讨论部分，将缺失数据作为研究的局限性之一进行说明，特别是当缺失率较高或怀疑为MNAR时。