当前位置：首页 > news >正文

广义随机占优：处理混合尺度数据的鲁棒决策与统计推断框架

news 2026/7/11 18:31:04

1. 项目概述与核心动机

在统计学和机器学习的日常研究与工程实践中，我们常常会遇到一些“棘手”的数据和决策场景。比如，你手头有一组多维度的贫困指标数据，其中既有“是否接受过高等教育”这样的序数变量，也有“家庭年收入”这样的基数变量，你想比较两个地区的贫困程度，但直接加权平均似乎总有些武断，因为不同尺度的信息如何整合才合理？又比如，在评估多个机器学习算法时，你同时关心准确率、F1分数、训练时间和内存消耗，这些指标量纲不同、重要性各异，如何给出一个既全面又稳健的排序，而不是简单粗暴地取个平均值？这些问题的背后，都指向一个共同的挑战：如何在信息不完全、尺度不统一、且存在不确定性的复杂环境下，做出鲁棒且信息高效的决策与推断。

传统的决策理论，从冯·诺依曼的期望效用理论到萨维奇的主观概率理论，为我们提供了在风险或不确定性下进行理性选择的黄金标准。然而，它们通常依赖于一个强假设：决策者拥有完全、精确的基数效用函数和概率信念。现实世界的数据和偏好往往是“非标准”的——我们可能只知道A比B好（序数信息），但不确定好多少；或者只知道在某个维度上，方案X比Y好“一些”（部分基数信息）。强行将这些模糊的、结构化的信息压缩成一个单一的精确数值，不仅会损失信息，还可能引入主观偏见，导致结论脆弱。

我过去几年的研究工作，正是围绕如何为这类“非标准”情境构建一个坚实的决策理论基础而展开。其核心是两样工具：偏好系统和广义随机占优。简单来说，偏好系统是一种数学结构，它能优雅地同时容纳序数和基数偏好信息，形成一个“部分结构化”的知识表示。而广义随机占优，则是建立在偏好系统之上的一套比较规则，用于在不确定性下（即比较随机变量）做出鲁棒的优劣判断。这套框架的价值在于，它不要求我们“虚构”出不存在的信息，而是教我们如何最大限度地利用手头已有的、可能不完整的知识，做出尽可能稳健的推断。

2. 理论基础：从经典决策论到偏好系统

要理解我们工作的创新之处，有必要先回顾一下经典决策理论的基石，并看看它在哪里遇到了瓶颈。

2.1 经典决策理论的局限与挑战

经典的贝叶斯决策理论框架堪称优雅。它假设决策者能对每一个可能的结果赋予一个精确的效用值（基数效用），并对每一个不确定事件赋予一个精确的概率（主观概率）。最优决策就是最大化期望效用的那个选择。这个框架在理论上非常强大，但在实践中面临两大难题：

完全基数信息的不可得性：让人精确量化“我对这个结果的喜爱程度是7.5分”是极其困难的，更不用说为所有可能世界状态赋予精确概率了。更多时候，我们只能表达“我更喜欢A而不是B”，或者“C发生的可能性比D大”。
模型的脆弱性：基于精确效用和概率得出的结论，对这两个输入的微小变化可能非常敏感。如果效用或概率的设定本身就有误差或争议，那么所谓的“最优决策”也就失去了说服力。

这就引出了对鲁棒性的需求。鲁棒统计和鲁棒决策的目标，就是让我们的结论对于模型假设（如概率分布族、效用函数形式）的轻微偏离不那么敏感。一种主流思路是采用不精确概率和不精确效用，即用集合（如概率区间、效用集合）而非点值来描述我们的知识状态。决策准则也随之变为在“最坏情况”下寻求最优（如Maximin准则）或满足一定合理性（如E-可容许性）。

2.2 偏好系统：一种混合尺度信息的统一表示

我们的工作从一个更根本的表示问题切入。与其一开始就考虑不精确的数值，不如先思考我们到底拥有什么类型的信息。在很多实际问题中，信息是混合尺度的：

序数信息：只知道排序，不知道差距。例如，“算法A的准确率高于算法B”，“治疗方案X的副作用小于Y”。
部分基数信息：知道部分对象之间的偏好强度。例如，“A比B好的程度，明显大于C比D好的程度”，但我们无法给A和C的效用差一个绝对数值。
局部基数信息：在某些维度或某些比较上是基数的，在其他方面是序数的。

为了形式化地刻画这种部分结构化的偏好，我们引入了偏好系统这一概念。一个偏好系统可以形式化地定义为一个三元组(X, R1, R2)：

X是备选方案（或结果）的集合。
R1是X上的一个二元关系，通常解释为“严格偏好于”。它捕获了我们确切的序数知识：如果(x, y) ∈ R1，则表示我们已知x严格优于y。
R2是X×X上的一个四元关系，或者说，是X×X上的一个二元关系。它捕获了部分基数信息：如果((x, y), (z, w)) ∈ R2，则表示我们已知“从y到x的效用提升”严格大于“从w到z的效用提升”。这实质上是比较了效用差。

关键洞见：R2关系是偏好系统的精髓。它允许我们表达“A比B好的程度，超过C比D好的程度”，而无需知道A、B、C、D各自的绝对效用值。这极大地丰富了可表达的信息类型，同时避免了强加完全基数化的要求。

2.3 从偏好系统到效用表示集

给定一个偏好系统，一个很自然的问题是：有哪些实数效用函数u: X -> R是与我们已知的偏好信息一致的？我们称这样的效用函数为该偏好系统的表示。

一致性条件1：如果(x, y) ∈ R1，那么必须有u(x) > u(y)。
一致性条件2：如果((x, y), (z, w)) ∈ R2，那么必须有u(x) - u(y) > u(z) - u(w)。

所有满足这些条件的效用函数u构成的集合，记作U。这个集合U精确地刻画了与现有部分知识相容的所有可能的基数效用。它通常不是一个单点，而是一个凸集（在适当的线性约束下）。这个效用表示集U就是我们后续进行鲁棒决策和统计比较的出发点。我们不再依赖单一的、可能武断的效用函数，而是考虑整个相容的效用函数族。

3. 核心工具：广义随机占优

有了偏好系统和与之对应的效用表示集U，我们就可以处理不确定性下的比较问题了，即比较取值于偏好系统中的随机变量。这正是广义随机占优大显身手的地方。

3.1 经典随机占优的回顾与局限

随机占优是金融经济学中比较风险资产（随机回报）的经典工具。一阶随机占优（FSD）和二阶随机占优（SSD）最为人熟知。

FSD：随机变量XFSD 随机变量Y，当且仅当对于所有非递减的效用函数，X的期望效用都不小于Y。这对应了“任何偏好更多财富（非饱和）的决策者都会选择X”。
SSD：XSSDY，当且仅当对于所有非递减且凹的效用函数（即风险厌恶者），X的期望效用都不小于Y。

然而，经典随机占优假设了一个完全基数、全局一致的效用函数类（如所有非递减函数）。当我们的偏好信息是部分结构化的，由偏好系统(X, R1, R2)定义时，我们关心的效用函数类不再是所有非递减函数，而是与该系统相容的特定集合U。

3.2 广义随机占优的定义与内涵

广义随机占优正是经典概念在偏好系统语境下的自然推广。

定义：设X和Y是两个在偏好系统(X, R1, R2)上取值的随机变量。我们说X广义随机占优于Y（记作X ≽_GSD Y），当且仅当对于该偏好系统的每一个相容效用表示u ∈ U，都有E[u(X)] ≥ E[u(Y)]。

这个定义的直观解释非常有力：如果在所有与我们现有部分知识相容的、可能的效用世界观下，X的期望表现都不差于Y，那么我们就可以稳健地宣称X不劣于Y。这种比较结论不依赖于我们武断地选定某一个特定的效用函数，因此具有内在的鲁棒性。

3.3 GSD 的技术实现与计算

从定义看，验证 GSD 需要检查无穷多个效用函数，这似乎是个不可解的问题。但得益于偏好系统的线性结构，我们可以将其转化为一个线性规划可行性问题。

离散化与线性约束：当结果空间X有限时，效用函数u可以表示为一个向量。偏好系统(X, R1, R2)所蕴含的序数和基数信息，可以转化为关于这个效用向量的一组线性不等式约束（例如，u(x) - u(y) ≥ δ + ε，其中δ是R2关系隐含的最小差，ε是一个小的正数用于表示严格不等式）。
随机变量与期望效用：随机变量X和Y的概率分布（可能是经验分布）给出了每个结果出现的概率。期望效用E[u(X)]和E[u(Y)]就是效用向量的线性组合。
线性规划问题：要检查X是否 GSDY，我们可以构造如下线性规划：
- 变量：效用向量u，以及一个辅助变量t（可以理解为Y比X可能的最大优势）。
- 目标：最小化t（或验证是否存在t < 0）。
- 约束： a) 效用向量u必须满足偏好系统定义的所有线性约束（归一化约束通常也需要，如指定某个结果为0效用）。 b) 对于所有u ∈ U，要求E[u(Y)] - E[u(X)] ≤ t。由于U是由线性不等式定义的凸多面体，这个“对于所有”的条件可以转化为检查该多面体顶点处的情况，或者通过对偶理论转化为另一个线性规划。
- 判定：如果该线性规划的最优解t* ≤ 0，则意味着即使在最不利于X的相容效用函数下，Y的期望效用也无法超过X，因此X ≽_GSD Y成立。如果t* > 0，则 GSD 关系不成立，并且t*的大小量化了违背的程度。

实操心得：在实际编程中，我们可以利用成熟的线性规划求解器（如Python的PuLP、cvxopt，或R中的lpSolve）来实现上述检查。关键在于正确地将R1和R2关系编码为线性约束。对于R2关系((x,y), (z,w))，对应的约束是u(x) - u(y) ≥ u(z) - u(w) + ε，其中ε是一个很小的正数（如1e-5），用于将严格不等式近似为线性约束。处理大量约束时，需要注意求解器的性能和数值稳定性。

4. 在鲁棒统计中的应用：处理混合尺度数据

统计推断的核心任务之一是比较——比较分布、比较群体、比较处理效应。当数据维度具有混合尺度时，经典方法往往力不从心。GSD 为此提供了一个天然的解决方案。

4.1 问题场景：多维贫困分析案例

假设我们要比较两个地区A和B的贫困状况。我们收集了三个指标：

收入（基数变量）：连续值，单位是货币。
教育水平（序数变量）：分类为“文盲”、“小学”、“初中”、“高中及以上”。
健康状况（序数变量）：通过调查问卷得分，但分数只具有序数意义（得分高表示更健康，但10分和20分的差距不等于20分和30分的差距）。

传统的做法可能是：

分别比较：在每个维度上做检验，但无法得出整体结论。
构造综合指数：给每个指标赋权并加总。但权重的选择极具主观性，且将序数变量当作基数变量来运算在方法论上是有问题的。
一阶随机占优：可以用于多维度，但要求所有维度都是基数且可加，或者要求在所有可能非递减的变换下都成立，这在实际的混合尺度场景中条件过于严苛，常常无法得到任何结论。

4.2 基于GSD的解决方案

利用偏好系统和GSD，我们可以进行更精细、更合理的比较：

构建偏好系统：
- X：每个个体是三个指标上的一个组合（收入值，教育等级，健康得分）。
- R1：定义明确的序数偏好。例如，在所有其他条件相同的情况下，收入更高更好，教育等级更高更好，健康得分更高更好。这定义了帕累托占优关系。
- R2：定义部分基数信息。这里的关键是，我们只对基数变量（收入）赋予基数比较能力。例如，我们可以设定：对于任意个体i和j，如果i的收入比j高Δ元，并且其他两个维度相同，那么((i, j), (k, l)) ∈ R2可以表达为“收入差距Δ所带来的效用提升，大于任何仅由序数维度差异（如教育从‘小学’提升到‘初中’）所带来的最小可感知效用提升”。这需要领域知识来设定一个合理的阈值Δ。更保守的做法是，R2只包含收入维度内部的基数比较，而不跨维度比较。
定义随机变量：将地区A和B的居民样本分别视为两个随机变量X_A和X_B，它们取值于上述构建的偏好系统空间。
执行GSD检验：运用第3.3节所述的线性规划方法，检验X_A ≽_GSD X_B或X_B ≽_GSD X_A是否成立。
解释结果：如果X_A ≽_GSD X_B成立，其统计含义是：在所有与我们设定的混合尺度偏好信息（收入是基数的，教育健康是序数的）相容的效用函数下，地区A居民的整体福利期望值都不低于地区B。这个结论是鲁棒的，因为它不依赖于对教育、健康维度效用函数的任何特定基数化假设。

注意事项：R2关系的设定是应用的关键，也是引入领域知识的地方。设定过强（声称太多基数比较）可能导致U集合很小，GSD条件很难满足，得不出结论。设定过弱（只利用R1），则退化为一种多维度一阶占优，可能无法充分利用基数信息。一个实用的建议是从最保守的、无疑义的基数比较开始（如“收入增加1000元带来的效用提升，肯定大于收入增加100元带来的效用提升”），逐步增加R2约束，观察结论的稳健性。

4.3 其他统计应用场景

医学治疗组比较：比较两种疗法，结局指标包括生存时间（基数）、副作用等级（序数）、生活质量评分（序数或区间尺度）。GSD可以综合比较，避免对生活质量评分进行有争议的加权。
金融资产组合比较：比较不同投资组合的回报分布，同时考虑回报（基数）和风险（通常用方差，基数）之外的序数因素，如ESG（环境、社会、治理）评级。
社会政策评估：评估一项政策对多维福祉的影响，指标涵盖经济、健康、教育、环境等多个混合尺度的维度。

在这些场景中，GSD提供了一种原则性的、信息高效的方法，将不同尺度的信息整合到一个一致的推断框架中，结论对效用函数的具体形式保持稳健。

5. 在机器学习中的应��：多准则算法基准测试

机器学习中，比较算法性能是永恒的主题。传统的基准测试方法通常存在几个问题：1) 聚焦单一指标（如准确率），忽略其他重要维度（速度、内存、能耗）；2) 对多个指标采用加权求和，权重选择主观；3) 忽略比较中的统计不确定性（将数据集上的性能视为确定值）；4) 缺乏对推断结论鲁棒性的评估。

5.1 构建稳健基准测试框架

基于GSD，我们可以建立一个满足以下理想的基准测试框架：

多准则：同时考虑多个性能指标。
统计性：将每个算法在基准测试集上的表现视为一个随机变量（因为测试集是总体的一个样本）。
鲁棒性：比较结论应对性能指标间的权衡关系（即效用函数）的假设保持稳健。

实施步骤：

定义性能指标与偏好系统：
- 假设我们比较m个算法，在n个数据集上运行，评估k个指标（如：准确率、F1分数、训练时间）。
- 对于每个算法a，其在第i个数据集上的表现是一个k维向量p_a^i = (p_{a1}^i, ..., p_{ak}^i)。
- 我们将所有算法在所有数据集上的表现向量的集合作为偏好系统的载体X。
- R1：定义明确的序数偏好。例如，对于准确率和F1分数，越高越好；对于训练时间，越短越好。这定义了每个指标上的帕累托方向。
- R2：定义部分基数信息。这是关键一步。我们需要决定哪些指标间的“交换率”是部分已知的。例如：
  - 我们可能认为“准确率提升1%所带来的效用，至少是F1分数提升1%所带来的效用的2倍”（这需要领域知识或决策者输入）。
  - 或者更保守地，我们只对同一种指标的不同数值进行基数比较，如“准确率从90%提升到91%带来的效用提升，大于从80%提升到80.5%的效用提升”。
  - 对于训练时间，我们可能设定一个阈值，认为“训练时间缩短10秒以上带来的效用提升，总是大于准确率提升0.1%带来的效用提升”。这反映了对效率的强烈偏好。
建模算法性能为随机变量：
- 我们将每个算法a在所有n个数据集上的表现{p_a^1, ..., p_a^n}视为来自某个总体分布的一个样本。
- 因此，算法a的性能被建模为一个在偏好系统空间X上取值的随机变量P_a。其经验分布由这n个观测点构成（可以赋予每个点权重1/n，或采用更复杂的重采样分布）。
进行基于GSD的成对比较：
- 对于每一对算法(a, b)，我们检验P_a ≽_GSD P_b是否成立。
- 由于我们只有经验分布，这里的检验是统计检验。我们需要计算一个检验统计量（例如，基于线性规划对偶问题的最优值t*），并利用重抽样方法（如自助法）来估计其抽样分布或计算p值，以判断观察到的GSD关系是否在统计上显著。
呈现结果：GSD前沿：
- 类似于帕累托前沿，我们可以定义GSD前沿（或称为非支配集）。一个算法属于GSD前沿，当且仅当不存在另一个算法在GSD意义上显著优于它。
- 可视化上，可以绘制算法在主要指标上的表现，并用有向边连接存在显著GSD关系的算法（从占优方指向被占优方）。GSD前沿的算法就是那些没有箭头指向它们的节点。

5.2 框架优势与实操解读

这个框架的强大之处在于：

结论的丰富性：它不仅能给出一个排序，还能揭示算法之间的占优关系网络。可能算法A在“高准确率优先”的效用观下占优，而算法B在“追求效率”的效用观下占优。GSD检验可以识别出那些在所有相容效用观下都占优的“强”关系。
鲁棒性报告：通过调整R2约束的强弱，我们可以进行敏感性分析。例如，逐渐放宽对训练时间权重的假设，观察算法A对B的占优关系是否依然成立。这为结论的稳健性提供了量化证据。
超越简单排名：它避免了像Friedman检验加Nemenyi事后检验那样，产生一个单一的、可能掩盖重要权衡关系的总排名。

实操心得：在实施中，最大的挑战是如何合理设定R2约束。一个可行的策略是分层设定：
核心无争议约束：只包含同指标内无可争议的基数比较（如准确率90% > 80%的效用差，肯定大于80% > 70%的效用差）。
领域知识约束：引入基于文献或专家经验的跨指标权衡（如“在医疗诊断中，召回率的权重不应低于精确度的两倍”）。
决策者偏好约束：如果基准测试是为特定决策服务（如为某个公司选型），可以引入决策者明确的偏好强度陈述。
分别在这三个层次上运行GSD分析，可以给出从“最保守”到“最贴合特定场景”的一系列结论，极大地增强了结果的可解释性和实用性。

6. 前沿拓展与未来方向

偏好系统与GSD的框架是开放的，可以沿着多个方向拓展，以解决更广泛的鲁棒决策与学习问题。

6.1 与主动学习和偏好学习的结合

在交互式系统（如推荐系统、专家系统）中，向用户或专家查询偏好信息是有成本的。偏好系统的结构可以被用来优化查询策略，以最少的提问获得最能缩小效用表示集U的信息。例如，如果R2关系能揭示哪些效用差比较是信息量最大的，系统就可以优先询问这些问题，从而更快地定位用户真正的偏好，提升查询效率。这与主动学习、贝叶斯优化中的信息获取函数设计思想一脉相承。

6.2 处理非独立同分布数据

经典的GSD检验通常假设数据是独立同分布的。然而，现实数据常有依赖性（如时间序列、空间数据）或异质性。我们需要发展在非i.i.d.设定下的GSD推断方法。一个思路是利用自助法或子抽样法来构造经验过程，并基于此推导检验统计量的极限分布或计算稳健的标准误。另一种思路是将GSD整合到更复杂的统计模型（如混合模型、随机效应模型）中，在模型框架内定义和检验潜在变量的GSD关系。

6.3 处理大规模与高维问题

当偏好系统的载体X维度很高或结果很多时，对应的线性规划问题可能变量和约束数量巨大，导致计算困难。研究高效的优化算法至关重要。可以考虑：

列生成与切割平面法：由于U的约束通常只有少数是活跃的，可以动态添加约束。
对偶问题求解：GSD检验的对偶问题往往有更直观的解释（如寻找一个“惩罚函数”或“权重分布”来证伪占优关系），且有时规模更小。
随机化与近似算法：当精确计算不可行时，可以采样U中的效用函数进行蒙特卡洛近似，或者使用随机梯度方法求解松弛后的优化问题。

6.4 与深度学习和语言模型的集成

当前大语言模型和强化学习从人类反馈中学习的技术（如RLHF）严重依赖于成对偏好数据。这些偏好通常是序数的（A回复优于B回复）。偏好系统可以引入部分基数反馈，例如，“A比B好的程度，远大于C比D好的程度”。这为训练提供了更丰富、更结构化的信号，可能有助于提升模型学习的稳定性和效率。将GSD用于比较不同策略或模型生成结果的分布，可以为RLHF提供一个更稳健的目标函数。

7. 常见问题与实战排坑指南

在实际应用偏好系统和GSD时，会遇到一些典型问题。以下是一些经验总结和解决方案。

7.1 如何设定R2关系？没有领域知识怎么办？

这是最常见的问题。R2关系编码了基数强度信息，是提升信息效率的关键，但也最易引入主观性。

策略一：保守起步：从空集R2 = ∅开始。此时GSD退化为基于R1（通常是帕累托序）的多维占优。虽然结论弱，但绝对稳健。
策略二：利用数据本身：对于连续基数变量，可以假设效用函数在该变量上是凹的（风险厌恶）或凸的。凹性意味着“从贫困线以下收入增加1000元带来的效用提升，大于从富裕水平收入增加1000元带来的效用提升”。这可以转化为R2约束。
策略三：敏感性分析：将R2的设定参数化。例如，假设“指标i的单位提升带来的效用至少是指标j的α倍”。然后让α在一个合理范围内变化，观察GSD结论何时发生改变。这能给出结论成立的“假设强度范围”。
策略四：交互式 elicitation：在决策支持系统中，可以向决策者呈现一系列精心设计的权衡问题（“你愿意牺牲多少单位的X来换取一单位的Y？”），逐步 elicitate 出R2关系。

7.2 GSD检验的统计效力如何？样本量小怎么办？

GSD是一种保守的检验。它要求在所有相容效用函数下都成立，因此当U集合很大（信息很少）时，很难拒绝“无占优”的原假设，导致统计效力较低。

增加样本量：最直接的方法。更多的数据可以更精确地估计随机变量的分布，减少不确定性。
引入合理的R2约束：如前所述，合理的基数信息能显著缩小U，提高检验效力。但务必谨慎，确保约束合理。
使用放松的占优概念：可以考虑ε-占优或概率占优。例如，Xε-占优Y，如果对于（例如）95%的u ∈ U，有E[u(X)] ≥ E[u(Y)]。这放松了“所有”的要求，提高了效力，但牺牲了完全鲁棒性。
重抽样方法：对于小样本，自助法或置换检验是估计p值、控制第一类错误的有效手段。虽然计算量大，但能更好地反映小样本下的不确定性。

7.3 计算复杂度太高，特别是维度多的时候怎么办？

预处理与约简：
- 检查R1和R2中是否存在冗余或传递性可推导的约束，提前移除。
- 如果结果空间X很大，考虑对连续变量进行离散化或分箱，但要小心信息损失。
- 利用问题的对称性或其他结构简化线性规划。
使用高效求解器：对于大规模线性规划，商业求解器如Gurobi、CPLEX，或开源的高性能求解器如HiGHS，远比通用的linprog函数高效。
近似算法：如前所述，可以采用对偶方法、随机采样U中的效用函数进行蒙特卡洛模拟来近似检验。虽然不能保证精确，但在许多应用中足以提供可靠的指导。
分布式计算：如果需要对大量算法对进行成对GSD检验，这些检验是相互独立的，可以轻松并行化。

7.4 如何可视化和解释GSD结果？

帕累托图增强：在传统的二维/三维帕累托散点图上，用不同形状或颜色标记出GSD前沿的算法。用箭头连接存在显著GSD占优关系的点（从占优方指向被占优方）。
占优矩阵：创建一个热力图矩阵，其中单元格(i, j)表示算法i对算法j的GSD检验p值（或最优值t*）。这能全局展示所有成对关系。
效用权重多边形图：对于两个算法的比较，可以在效用权重空间（如果效用是指标的线性加权）中绘制出使得算法A优于算法B的权重区域。这能直观显示结论对权重假设的依赖程度。
报告结论的层次：明确报告结论是在何种假设强度下得出的。例如：“在仅使用序数信息(R1)时，算法A和B不可比；在引入‘训练时间权重至少是内存消耗权重一半’的假设(R2)后，算法A显著GSD占优算法B。”

7.5 如何处理缺失数据或非精确观测？

现实数据常有缺失或是以区间形式出现（如“收入在1万到2万之间”）。偏好系统框架可以扩展以容纳这种不精确性。

将不精确观测建模为集合值随机变量：如果一个观测的结果不是点x，而是集合A ⊆ X（表示真实结果位于A中），那么该观测对经验分布的贡献就不是一个点质量，而是一个均匀分布在集合A上的质量。
推广GSD到不精确概率：此时，随机变量的分布不再是精确的概率测度P，而是一个** credal set**（概率测度的集合）M。GSD的定义可以推广为：X占优Y，当且仅当对于所有相容的效用函数u ∈ U和所有可能的分布P_X ∈ M_X, P_Y ∈ M_Y，都有E_{P_X}[u] ≥ E_{P_Y}[u]。这对应着最坏情况下的比较，计算上更具挑战性，但理论上是连贯的。
实践中的简化：对于缺失数据，可以采用多重插补生成多个完整数据集，在每个数据集上计算GSD关系，然后综合结论（如看占优关系在多少比例的数据集上成立）。