当前位置：首页 > news >正文

t统计量：数据不确定性的动态校准器

news 2026/7/14 23:37:19

1. 什么是t统计量？——它不是魔法，而是你手里的“不确定性校准器”

我带过不少刚接触统计分析的同事和学生，头三天最常听到的困惑是：“t值算出来是2.35，那它到底好还是不好？”——这个问题本身，就暴露了对t统计量本质的误解。它从来不是个孤立的“好坏打分”，而是一个标准化的距离测量工具：告诉你，你观测到的那个差异，离“什么都没发生”这个基准点，到底隔了多少个“数据本身的抖动单位”。这就像你用卷尺量两棵树之间的距离，但卷尺本身是软的、会随温度伸缩；t统计量做的，就是把这把“软尺”自动校准成一把标准钢尺。

关键词里虽然没写，但整个内容的核心就三个字：不确定性校准。它解决的不是“有没有差异”，而是“这个差异大不大，大到不能用运气来解释”。你在A/B测试里看到新按钮点击率高了1.2%，在用户调研里发现满意度均值从7.1升到7.4，在回归模型里发现广告预算系数是0.83——这些数字本身毫无意义，直到你用t统计量把它放在数据波动的背景里去衡量。它不关心你多努力收集了数据，只关心你手里的数据到底有多“稳”。样本量小、数据散得像撒豆子，它就给你一个更宽的容错带；样本量大、数据聚得像叠罗汉，它就收得更紧。这种动态适应性，正是它比z统计量更贴近真实工作场景的根本原因。

我做过上百次效果归因分析，最深的体会是：t统计量的价值，90%体现在它迫使你停下来想一想“我的数据到底靠不靠谱”。当你看到t=0.8时，第一反应不该是“不显著”，而该是“我的样本是不是太小？方差是不是太大？是不是混进了异常值？”——这个思考过程，比最终那个p值重要十倍。它不是一个盖章工具，而是一面镜子，照出你数据质量的真实水位。所以别把它当成黑箱输出的神秘数字，把它当成你和数据之间的一次诚实对话：你告诉它你看到了什么，它反问你“你确定你没看花眼吗？”

2. t统计量的设计逻辑与核心思想拆解

2.1 为什么非得“除以标准误”？——从“原始差距”到“可信差距”的质变

我们先看一个最朴素的场景：你测了20个用户的页面停留时间，平均是6.2分钟，而行业基准是5.5分钟。表面看，差了0.7分钟。但这个0.7分钟意味着什么？如果这20个用户的数据非常集中，比如所有人都是6.0–6.4分钟，那0.7分钟就是个很扎实的提升；但如果数据散得厉害，有人1分钟、有人12分钟，那0.7分钟可能只是随机波动的噪音。问题就出在这里：原始差值（estimate − hypothesized value）只告诉你“量有多大”，却完全不告诉你“这个量有多可信”。

t统计量的精妙之处，就在于它强制你把“量”和“信”绑在一起。它的公式是：

$$ t = \frac{\text{estimate} - \text{hypothesized value}}{\text{standard error}} $$

分子是“你看到的”，分母是“你有多不确定你看到的”。这个分母——标准误（Standard Error, SE）——才是整个设计的灵魂。它不是数据本身的变异（那是标准差），而是你的估计值（比如样本均值）本身的变异程度。你可以把它想象成：如果你反复从同一个总体里抽20个样本，每次都算一个均值，这些均值会形成一个新的分布；标准误，就是这个“均值分布”的标准差。它直接告诉你：“我用这20个数算出来的6.2，大概会在多大范围内晃悠？”

所以t值的本质是：你观测到的差距，相当于多少个“你自己估计值的晃悠幅度”。t=1.5，意思是这个差距大约是1.5个“均值晃悠单位”；t=4.2，就是4.2个。这个转换至关重要——它把一个依赖于原始单位（分钟、分、百分点）的、无法跨场景比较的绝对数，变成了一个无量纲的、可通用的相对度量。就像你不会说“我家房子离公司3公里”，而会说“我家离公司开车要15分钟”，因为后者考虑了路况这个“不确定性”。

提示：标准误的计算公式 $SE = \frac{s}{\sqrt{n}}$ 本身就揭示了两个关键事实：一是它和样本标准差s成正比（数据越散，估计越不准），二是它和样本量n的平方根成反比（样本越多，估计越稳）。这个 $\sqrt{n}$ 关系，是所有统计推断的基石，也是为什么“多采100个样本”带来的精度提升，远不如“多采1000个样本”来得明显。

2.2 为什么需要t分布？——当“不确定性”本身也成了变量

如果标准误是已知的、固定的，那t值就直接服从标准正态分布（z分布）。但现实是残酷的：我们永远不知道真实的总体标准差σ，只能用样本标准差s去估计它。而s本身，也是一个会随样本变化的随机变量。这就引入了第二层不确定性：不仅你的均值在晃，连你用来衡量“晃动程度”的尺子本身也在晃。

t分布，就是为了解决这个“尺子在晃”的问题而生的。它由威廉·戈塞特（笔名“Student”）在1908年为吉尼斯啤酒厂工作时提出，初衷就是处理小批量啤酒质量检测中这种“用样本估计误差”的困境。t分布的形状，由一个叫“自由度（Degrees of Freedom, df）”的参数控制。df本质上是你用来估计不确定性的“可靠信息量”。对于单样本t检验，df = n−1。为什么减1？因为你用样本均值$\bar{x}$去估计总体均值μ时，这n个数据点中，只有n−1个是真正“自由”的；最后一个点被均值锁死了——比如你告诉我5个数的均值是10，又告诉你其中4个是8、9、10、11，那第5个必然是12。这个被“锁死”的自由度，就是你为估计均值所付出的代价，它直接决定了t分布的“胖瘦”。

自由度越小（样本越小），t分布尾巴越厚，意味着极端t值出现的概率更高——这正是对“小样本下不确定性更大”的数学刻画。当你查t临界值表时，df=5对应的α=0.05双侧临界值是2.571，而df=30时是2.042，df→∞时收敛到1.96（z值）。这个递减过程，就是数据越来越“稳”，你的判断越来越“自信”的量化体现。它不是教科书上的一个抽象概念，而是你每次点击“运行t检验”按钮时，软件后台为你默默执行的、对数据脆弱性的一次致敬。

2.3 三种常见场景的统一内核——万变不离其宗的“距离/不确定性”框架

很多人觉得单样本、双样本、配对样本、回归系数的t检验是四个不同的东西，其实它们只是同一套逻辑在不同场景下的投影。核心永远是：我要衡量的“效应”是什么？支撑这个效应的“不确定性”又是什么？

单样本t检验：效应 = $\bar{x} - \mu_0$（样本均值离基准值多远）；不确定性 = $SE_{\bar{x}} = s/\sqrt{n}$（均值本身的抖动）。
独立双样本t检验：效应 = $\bar{x}_1 - \bar{x}2$（两组均值之差）；不确定性 = $SE{\bar{x}_1-\bar{x}_2} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$（两组均值各自抖动的合成）。
配对样本t检验：效应 = $\overline{(x_{i1} - x_{i2})}$（每对差值的均值）；不确定性 = $SE_{\text{mean of diffs}} = s_{\text{diff}}/\sqrt{n}$（差值序列的均值抖动）。
回归系数t检验：效应 = $\hat{\beta}j$（某个自变量的斜率）；不确定性 = $SE{\hat{\beta}_j}$（这个斜率估计值的标准误，由残差方差和自变量的离散程度共同决定）。

你看，无论场景怎么变，分子永远是你关心的“故事主角”，分母永远是你为讲好这个故事所必须承担的“叙事成本”。这种一致性，让t统计量成为统计学里最优雅的工具之一。我在做电商用户分群效果评估时，曾同时用这四种t检验：用单样本看新客转化率是否达标，用双样本比AB版留存，用配对看同一用户活动前后复购变化，用回归看哪些行为特征真正驱动了LTV。它们共享同一套语言，让我能在一个统一的框架下，给老板讲清楚“哪些变化是真金白银，哪些只是数据在跳舞”。

3. 核心细节解析与实操要点：从公式到键盘的每一步

3.1 单样本t检验：你的第一个“不确定性校准”实战

假设你负责一款健身App的运营，产品团队声称新上线的“每日打卡激励”功能，能将用户周活跃天数（WAD）从历史均值4.2天提升到至少4.5天。你抽取了n=36位近期使用该功能的用户，计算得样本均值$\bar{x}=4.65$天，样本标准差$s=1.2$天。现在，你要用t检验来验证这个宣称。

Step 1：明确检验结构

原假设 $H_0: \mu = 4.5$（功能无效，均值仍是4.5）
备择假设 $H_1: \mu > 4.5$（功能有效，均值提升，这里用单侧检验，因为业务目标明确是“提升”）
显著性水平 $\alpha = 0.05$

Step 2：计算标准误（SE）$$ SE = \frac{s}{\sqrt{n}} = \frac{1.2}{\sqrt{36}} = \frac{1.2}{6} = 0.2 $$ 这个0.2意味着：如果你反复抽36人，算出的WAD均值，大概会在4.5±0.2这个范围内波动。这是你判断“4.65是否够大”的基准线。

Step 3：计算t统计量$$ t = \frac{\bar{x} - \mu_0}{SE} = \frac{4.65 - 4.5}{0.2} = \frac{0.15}{0.2} = 0.75 $$ t=0.75，说明观测到的0.15天提升，只相当于0.75个“均值波动单位”。这显然不够“突出”。

Step 4：查表或计算p值

自由度 $df = n-1 = 35$
对于单侧检验，α=0.05，查t表（或用软件）得临界值约为1.690
因为 $t=0.75 < 1.690$，不拒绝 $H_0$
或者直接算p值：P(T > 0.75 | df=35) ≈ 0.23（远大于0.05）

实操心得：

不要跳过描述性统计：在跑t检验前，务必先画直方图或箱线图。我曾遇到一个案例，样本均值是4.65，但数据严重右偏（大部分用户是3-4天，少数铁杆用户是7-8天），导致均值被拉高。此时t检验的前提（近似正态）就不满足，结果不可靠。后来改用Wilcoxon符号秩检验，结论完全不同。
“不显著”不等于“没效果”：t=0.75不显著，但0.15天的提升本身有意义吗？要看业务背景。如果用户基数是百万级，0.15天乘以百万，就是巨大的总活跃时长。这时你应该关注效应量（Cohen's d = 0.15/1.2 ≈ 0.125，很小），并考虑扩大样本量来捕捉这个微小但可能重要的信号。

3.2 独立双样本t检验：如何正确处理“两组数据的抖动”

继续健身App的例子。市场部做了两版启动页：A版（简洁图标）和B版（详细文案）。你收集了各50位新用户的首日使用时长（单位：分钟），A版均值$\bar{x}_A = 8.2$，标准差$s_A = 3.5$；B版均值$\bar{x}_B = 9.1$，标准差$s_B = 4.2$。问题是：B版真的更好吗？

这里的关键抉择是：用“等方差”还是“不等方差”的t检验？这不是技术偏好，而是对数据本质的判断。

等方差（Pooled）t检验：假设两组数据来自方差相同的总体。其标准误为： $$ SE_{\text{pooled}} = \sqrt{ s_p^2 \left( \frac{1}{n_A} + \frac{1}{n_B} \right) }, \quad \text{其中 } s_p^2 = \frac{(n_A-1)s_A^2 + (n_B-1)s_B^2}{n_A + n_B - 2} $$ 它把两组的方差“揉”成一个更稳定的估计，提高了统计功效，但前提是方差确实相等。
不等方差（Welch's）t检验：不做等方差假设，标准误为： $$ SE_{\text{Welch}} = \sqrt{ \frac{s_A^2}{n_A} + \frac{s_B^2}{n_B} } $$ 它更保守，自由度计算也更复杂（用Welch近似），但适用性更广，是现代统计实践的默认推荐。

如何选择？别迷信F检验！F检验本身对正态性敏感，且小样本下检验力差。我的经验是：直接用Welch's t检验，除非你有强有力的先验理由相信方差相等。在这个例子里，$s_A=3.5$，$s_B=4.2$，比值约1.2，远小于2，可以认为方差相近，但为了稳健，我还是会跑Welch's检验。

计算Welch's t： $$ SE = \sqrt{ \frac{3.5^2}{50} + \frac{4.2^2}{50} } = \sqrt{ \frac{12.25 + 17.64}{50} } = \sqrt{0.5978} \approx 0.773 $$ $$ t = \frac{9.1 - 8.2}{0.773} = \frac{0.9}{0.773} \approx 1.164 $$ 自由度用Welch公式算得约97.5，查表得α=0.05双侧临界值≈1.984。t=1.164 < 1.984，不显著。

注意：很多初学者会犯一个致命错误——看到两组均值差0.9分钟，就主观觉得“应该显著”。但t检验告诉你，考虑到两组数据各自的波动（3.5和4.2分钟），这个0.9分钟的差距，在统计上并不“突出”。这再次印证了t统计量的核心：它不是在问“差多少”，而是在问“差得够不够多，多到不能用波动来解释”。

3.3 配对样本t检验：当“同一个体的两次测量”成为你的最强盟友

还是健身App，这次你想知道“7天挑战赛”活动对用户运动习惯的影响。你招募了25位用户，在活动开始前和结束后一周，分别记录了他们的周运动时长（单位：小时）。数据是成对的：(前:5.2, 后:6.8), (前:3.1, 后:4.0), ... 这种设计的优势在于，它天然控制了用户间的巨大差异（有人天生爱运动，有人不爱），只聚焦于“活动带来的变化”。

核心操作：把两列数据变成一列“差值”

计算每个用户的差值：$d_i = \text{后} - \text{前}$
得到差值序列：$d_1, d_2, ..., d_{25}$
计算差值的均值 $\bar{d}$ 和标准差 $s_d$

假设算得 $\bar{d} = 1.3$ 小时，$s_d = 0.9$ 小时。

然后，你回到了单样本t检验！只不过现在你的“样本”是25个差值，你的“基准值”是0（即“没有变化”）。 $$ SE = \frac{s_d}{\sqrt{n}} = \frac{0.9}{\sqrt{25}} = \frac{0.9}{5} = 0.18 $$ $$ t = \frac{\bar{d} - 0}{SE} = \frac{1.3}{0.18} \approx 7.22 $$ df = 24，查表得临界值≈2.064。t=7.22 >> 2.064，p值极小（<0.001），结论非常稳健。

为什么配对设计威力巨大？因为 $s_d$（差值的标准差）通常远小于 $s_{\text{前}}$ 或 $s_{\text{后}}$（单组标准差）。在这个例子里，单组标准差可能高达3-4小时（用户间差异大），但差值标准差只有0.9小时（个体变化相对稳定）。这使得SE从 $3.5/\sqrt{25} \approx 0.7$ 降到了0.18，t值从约1.8飙升到7.22。这就是“控制混杂变量”的力量。我在做用户访谈提纲优化时，就用配对法：让同一组用户先用旧提纲、再用新提纲回答同一组问题，t检验的结果直接说服了产品总监。

4. 实操过程与核心环节实现：从数据到决策的完整链条

4.1 用Python完成一次完整的t检验分析（附可运行代码）

下面这段代码，是我日常工作中处理A/B测试报告的简化版。它不仅计算t值和p值，还自动检查关键假设、计算效应量，并生成直观的可视化。你可以直接复制粘贴运行。

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from scipy import stats import warnings warnings.filterwarnings('ignore') # 模拟A/B测试数据：A组（对照组）50人，B组（实验组）50人 np.random.seed(42) group_a = np.random.normal(loc=8.2, scale=3.5, size=50) # A组均值8.2，标准差3.5 group_b = np.random.normal(loc=9.1, scale=4.2, size=50) # B组均值9.1，标准差4.2 # 1. 描述性统计 print("=== 描述性统计 ===") print(f"A组: 均值={np.mean(group_a):.2f}, 标准差={np.std(group_a, ddof=1):.2f}, n={len(group_a)}") print(f"B组: 均值={np.mean(group_b):.2f}, 标准差={np.std(group_b, ddof=1):.2f}, n={len(group_b)}") # 2. 正态性检验（Shapiro-Wilk） _, p_a = stats.shapiro(group_a) _, p_b = stats.shapiro(group_b) print(f"\n=== 正态性检验 (Shapiro-Wilk) ===") print(f"A组 p-value: {p_a:.3f} (>{0.05 if p_a>0.05 else '<'}0.05)") print(f"B组 p-value: {p_b:.3f} (>{0.05 if p_b>0.05 else '<'}0.05)") # 3. 方差齐性检验（Levene's Test） _, p_levene = stats.levene(group_a, group_b) print(f"\n=== 方差齐性检验 (Levene's) ===") print(f"p-value: {p_levene:.3f} (>{0.05 if p_levene>0.05 else '<'}0.05)") # 4. 执行Welch's t检验（推荐） t_stat, p_value = stats.ttest_ind(group_a, group_b, equal_var=False) print(f"\n=== Welch's t检验结果 ===") print(f"t统计量 = {t_stat:.3f}") print(f"p值 = {p_value:.3f}") print(f"均值差 = {np.mean(group_b) - np.mean(group_a):.3f}") # 5. 计算Cohen's d效应量 pooled_sd = np.sqrt(((len(group_a)-1)*np.var(group_a, ddof=1) + (len(group_b)-1)*np.var(group_b, ddof=1)) / (len(group_a) + len(group_b) - 2)) cohens_d = (np.mean(group_b) - np.mean(group_a)) / pooled_sd print(f"Cohen's d = {cohens_d:.3f} (小:0.2, 中:0.5, 大:0.8)") # 6. 可视化 plt.figure(figsize=(12, 5)) # 子图1：分布直方图 plt.subplot(1, 2, 1) sns.histplot(group_a, kde=True, label='A组', color='skyblue', alpha=0.7) sns.histplot(group_b, kde=True, label='B组', color='salmon', alpha=0.7) plt.xlabel('使用时长 (分钟)') plt.ylabel('频数') plt.title('A/B组分布对比') plt.legend() # 子图2：均值与置信区间 plt.subplot(1, 2, 2) means = [np.mean(group_a), np.mean(group_b)] errors = [stats.sem(group_a), stats.sem(group_b)] # 标准误 plt.bar(['A组', 'B组'], means, yerr=errors, capsize=5, color=['skyblue', 'salmon']) plt.ylabel('均值 (分钟)') plt.title('均值与95%置信区间') plt.ylim(0, max(means)+max(errors)*1.5) plt.tight_layout() plt.show()

代码解读与实操注释：

stats.ttest_ind(..., equal_var=False)：这是调用Welch's t检验的关键。equal_var=False明确告诉函数不要假设方差相等，这是安全的选择。
stats.sem()：计算标准误（Standard Error of Mean），它比手动算std/sqrt(n)更精确，因为它自动使用ddof=1（贝塞尔校正）。
效应量Cohen's d：它把均值差除以合并标准差，得到一个无量纲的“大小”度量。d=0.2是微小效应，d=0.5是中等，d=0.8是大效应。p值告诉你“是不是真的”，d值告诉你“真的话，有多大”。两者缺一不可。
可视化：直方图让你一眼看出分布形态（是否对称、有无异常值），均值条形图加误差线则直观展示了估计的精度。我坚持“不画图，不汇报”，因为图能讲出数字讲不清的故事。

4.2 回归分析中的t检验：如何读懂你的模型摘要表

当你用statsmodels或sklearn拟合一个线性回归模型时，输出的摘要表（Summary）里，每一行系数后面都有一个t列和一个P>|t|列。这就是t检验在起作用。以一个预测用户月消费额（Y）的模型为例，自变量包括：年龄（X1）、月登录次数（X2）、是否VIP（X3，0/1变量）。

模型输出可能如下：

coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ const 120.5 8.2 14.69 0.000 104.3 136.7 X1 1.2 0.3 4.00 0.000 0.6 1.8 X2 15.8 2.1 7.52 0.000 11.6 20.0 X3 210.3 15.4 13.65 0.000 179.8 240.8

逐行解读：

const（截距）：当所有X=0时，预测的Y值。t=14.69，p<0.001，说明截距显著不为0，模型基线是可靠的。
X1（年龄）：系数1.2，意味着年龄每增加1岁，月消费额平均增加1.2元。t=4.00，p<0.001，说明这个正向关系极不可能是随机产生的。
X2（登录次数）：系数15.8，t=7.52，p<0.001，这是最强的预测因子。登录次数每多1次，消费额多15.8元，且证据非常坚实。
X3（VIP）：系数210.3，t=13.65，p<0.001，VIP用户比非VIP用户平均多消费210.3元，效应巨大且极其显著。

关键洞察：t检验在这里的作用，是帮你筛选出真正驱动Y的X。它不是在问“X2和X3哪个系数大”，而是在问“X2的系数15.8，是否大到不能用它的标准误2.1来解释？”答案是肯定的（15.8/2.1=7.52）。而如果某个变量的t值很小（比如t=0.8），即使它的系数看起来不小，你也应该怀疑它是否真的有用，或者考虑将其从模型中剔除，以避免过拟合。

注意：回归中的t检验，其零假设是“该系数=0”，即该变量对Y没有线性影响。这和单样本检验的“均值=某值”略有不同，但“距离/不确定性”的核心逻辑完全一致。

5. 常见问题与排查技巧实录：那些没人告诉你的坑

5.1 “我的t值很大，p值却很小，但业务方说这没用”——统计显著 vs. 实际重要

这是我在汇报中被问得最多的问题。有一次，我们分析了10万用户的点击流数据，发现新搜索算法将长尾词（搜索量<10次/天）的点击率从0.82%提升到了0.85%，t检验显示p<0.001，效应量Cohen's d=0.015（微乎其微）。业务总监皱着眉头说：“0.03个百分点？这对我们GMV影响几乎为零。”

这完美诠释了t统计量的局限性：它极度敏感于样本量。当n=100,000时，哪怕一个微小的、在商业上毫无意义的差异，也会被放大成巨大的t值。t统计量回答的是“这个差异是否真实存在”，而不是“这个差异是否值得我投入资源去推广”。

我的应对策略：

永远报告效应量：在p值旁边，强制加上Cohen's d或均值差的绝对值。让决策者自己判断“0.03%”在他们业务语境下意味着什么。
进行成本-收益分析：把统计结果翻译成业务语言。例如：“0.03%的提升，按当前流量，预计每月带来额外XX万元收入，而算法迭代成本是YY万元，ROI=...”。
设定最小可检测效应（MDE）：在实验设计阶段，就和业务方一起确定：“我们希望检测到的最小有意义的提升是多少？”比如MDE=0.1%。然后根据MDE、预期基线率、期望统计功效（如0.8），反推出所需的最小样本量。这样，实验结束时，如果未达到MDE，你就能理直气壮地说：“数据足够证明，提升没有达到我们定义的‘有意义’的门槛。”

5.2 “t检验不显著，但我直觉觉得有差异”——当数据不听话时怎么办？

有一次，我们测试一个新客服话术，只收集了15位用户的反馈（n=15），满意度均值从3.8升到4.1，但t=1.2，p=0.25，不显著。团队很沮丧。我的建议是：不要强行用t检验，换一个更匹配小样本、更鲁棒的方法。

非参数检验：当样本小且分布不明时，用Wilcoxon符号秩检验（配对）或Mann-Whitney U检验（独立）。它们不依赖正态假设，只利用数据的排序信息。在上面的话术案例中，Wilcoxon检验给出p=0.08，虽未达0.05，但已提示“值得关注”，为我们争取了追加样本的机会。
贝叶斯方法：计算后验概率P(效应>0 | 数据)。它给出的是“效应为正的概率”，比p值更符合人的直觉。用pymc库几行代码就能搞定。
Bootstrap重采样：从现有样本中有放回地抽取大量新样本（如10,000次），每次计算均值差，构建一个“均值差”的经验分布。然后看这个分布有多少比例落在0以上。这完全绕开了对分布形状的假设。

核心原则：t检验是强大工具，但不是唯一工具。当它不适用时，放弃它不是失败，而是专业性的体现。我见过太多人为了“凑出一个p<0.05”，强行删除异常值、变换数据，结果模型在生产环境彻底失效。真正的严谨，是承认数据的局限，并选择最合适的工具去逼近真相。

5.3 “t值和p值都很好，但模型上线后效果消失了”——外部效度的隐形杀手

最痛的教训往往发生在模型成功通过所有统计检验，上线后却一败涂地。原因通常是：t检验只保证了“在你这批数据里，效应是真实的”，但没保证“这个效应在未来的、更广阔的用户群体里依然成立”。

样本偏差：你测试的1000名用户，可能全是iOS用户、一线城市、25-35岁。而你的整体用户池里，安卓用户占70%，三四线城市用户占60%。t检验的结论，只对你的样本有效。
霍桑效应：用户知道自己在被测试，行为发生改变。比如在A/B测试中，实验组用户因为收到“您被选中参与新功能体验”的通知，而更积极地使用App，这种热情在正式上线后必然消退。
干扰因素：测试期间恰逢节假日，所有用户的活跃度都上升，掩盖了功能的真实效果。

我的防御工事：

分层抽样：确保测试样本在关键维度（设备、地域、新老用户）上，与总体分布一致。
延长测试周期：至少覆盖一个完整的业务周期（如一周、一个月），避开特殊事件。
A/A测试：在正式A/B测试前，先做一次A/A测试（两组都用旧版本），确认你的检测系统本身没有系统性偏差（比如两组p值应该均匀分布在0-1之间）。

t统计量是你的显微镜，帮你看清样本内部的结构；而上述这些措施，是你的望远镜，帮你把视野投向更广阔的真实世界。两者结合，才能做出既经得起统计检验、又经得起业务考验的决策。

6. t统计量与z统计量：何时该用哪一把尺子？

6.1 根本区别：你是否知道“总体的抖动”？

这个问题的答案，直接决定了你该用t还是z。z统计量的公式是： $$ z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} $$ 注意分母是 $\sigma / \sqrt{n}$，这里的 $\sigma$ 是已知的、真实的总体标准差。而t统计量的分母是 $s / \sqrt{n}$，这里的 $s$ 是用样本算出来的、对$\sigma$的估计。

所以，z统计量适用于“上帝视角”：你知道这个世界的底层规则（$\sigma$），你只是在验证某个具体样本是否符合这个规则。这在现实中极少发生。我能想到的唯一场景是：一个拥有数十年、数百万用户历史数据的成熟平台，已经精确知道了某个核心指标（如日活DAU）的长期标准差$\sigma=12000$。那么，当它想检验本月DAU均值是否偏离了历史均值时，就可以用z检验，因为$\sigma$是已知的“常数”。

而t统计量适用于“凡人视角”：你手里只有一把用当前数据打磨出来的尺子（s），你必须承认这把尺子本身也有误差。这正是我们绝大多数工作的常态。你测20个用户的NPS，你跑50次A/B测试，你分析1000条用户评论——你永远不知道那个神秘

查看全文

http://www.jsqmd.com/news/895194/