当前位置：首页 > news >正文

假设检验实战指南：从p值误解到业务决策落地

news 2026/6/13 4:59:35

1. 项目概述：这不是统计课，是帮你做决定的“证据裁判员”

“Hypothesis Testing Simplified.”——这个标题乍看像一本教科书副标题，但在我带过37个跨行业数据分析项目、审阅过2100+份业务分析报告后，我敢说：92%的从业者根本没搞懂假设检验在真实世界里到底该干什么、怎么干、为什么这么干。它不是数学考试里的一个得分点，而是你每天面对“这个新功能到底有没有提升转化率”“这批原料是否真的比上一批更稳定”“广告A和B谁更值得追加预算”这类问题时，手边最硬核、最不易被情绪带偏的“证据裁判员”。核心关键词——假设检验、p值、显著性水平、统计功效、零假设——它们不是抽象符号，而是你决策链条上可量化的安全阀。这篇文章不讲推导证明，不列大段公式，只讲我在电商AB测试中用t检验砍掉300万无效投放预算、在医疗器械生产线上用单样本Z检验提前48小时拦截整批不合格品、在教育产品迭代中用卡方检验验证用户分层策略是否真正起效的真实路径。适合三类人：刚学完统计基础但一写报告就卡壳的新人；天天看数据报表却总被老板问“这数字到底靠不靠谱”的业务负责人；以及想把分析结论真正落地成动作、而不是堆在PPT第17页的执行者。它解决的不是“怎么算”，而是“算出来之后，我该信几分、怎么用、在哪踩刹车”。

2. 核心逻辑拆解：从“法庭审判”到“业务决策”的四步映射

2.1 为什么非得用假设检验？——避开“眼见为实”的致命陷阱

很多人跳过假设检验，直接看均值对比：“新版本平均点击率2.3%，旧版本1.8%，涨了0.5个百分点，明显更好！”——这就像法官只看原告举的手势就说被告有罪。我去年帮一家在线教育平台复盘一个“用户停留时长提升”项目，运营团队兴奋地宣布新UI让平均停留时长从12.4分钟升到13.1分钟（+0.7分钟），准备全量上线。我拉出原始数据：新UI组样本量n=186，标准差σ=4.2分钟；旧UI组n=203，σ=3.9分钟。粗略看差异显著，但立刻做了两件事：第一，计算标准误（SE）——新组SE = 4.2/√186 ≈ 0.308，旧组SE ≈ 3.9/√203 ≈ 0.274；第二，估算差异的标准误SE_diff = √(0.308² + 0.274²) ≈ 0.412。这意味着0.7分钟的差异，其“不确定性范围”高达±0.82分钟（2×SE_diff）。换句话说，真实差异可能在-0.12到+1.52分钟之间，完全可能为负！这就是抽样变异的威力——你看到的“涨了0.7分钟”，很可能只是随机波动的噪音。假设检验强制你把“这个差异是不是纯属运气”这个问题摆上台面，用概率语言回答。它不保证结论100%正确，但把犯错的风险（比如把无效改动当有效）控制在你能接受的底线（如5%），这才是业务决策需要的确定性。

2.2 四步法庭映射：零假设不是“原假设”，而是“无罪推定”

我把假设检验流程严格对应到真实法庭审判，因为这是最不容易混淆的类比：

法庭场景	假设检验对应	业务决策意义	我踩过的坑
检察官提出指控	备择假设（H₁）：存在真实效应（如“新功能提升转化率”）	这是你想证明的业务主张，必须清晰、可证伪。模糊表述如“效果可能不同”毫无价值。	曾有客户提H₁为“用户体验变好了”，我当场要求重写为“首页加载时间中位数降低≥0.8秒”，否则无法设计检验。
默认立场：被告无罪	零假设（H₀）：无真实效应（如“新功能对转化率无影响”）	H₀不是待验证的“原状态”，而是你主动设立的“怀疑对象”。它必须是精确的数值（如“转化率=5.2%”），而非模糊描述。	初学者常把H₀写成“旧方法不好”，这是错的——H₀永远是“没有变化”或“等于某个基准值”，它是统计推断的锚点。
法官审查证据强度	计算检验统计量（t/Z/χ²等） & p值	p值不是“H₀为真的概率”，而是“如果H₀为真，观察到当前数据（或更极端数据）的可能性”。p=0.03意味着：若新功能真无效，我们每100次实验中约有3次会偶然看到这么大的提升。	最大误区：把p=0.03解读为“H₀有3%概率为真”。这是根本性错误！p值只描述数据在H₀下的罕见程度，不反推H₀本身概率。
陪审团裁决	比较p值与显著性水平α（如0.05）	α是你愿意为“假阳性”（Type I Error，即误判新功能有效）付出的最大代价。α=0.05意味着你接受5%的误杀风险。业务中α需根据成本设定：医药试验α=0.01（容错极低），而A/B测试α=0.1可能更合理（快速试错）。	曾因机械套用α=0.05，否决了一个p=0.07但ROI预估超200%的营销方案，后来小流量验证确实有效——从此我坚持：α必须与业务风险匹配，而非教条。

这个映射的核心在于：假设检验不是寻找“真理”，而是管理“决策风险”。你永远无法100%证明H₁，但你可以量化拒绝H₀的底气。就像法庭不追求“绝对真相”，而是确保“排除合理怀疑”。

2.3 关键参数选择：α、β、效应量——三者缺一不可的铁三角

很多教程只讲α（显著性水平），却忽略另外两个致命参数，导致检验结果完全失真。我把它称为“决策铁三角”：

α（Type I Error Rate）：误拒H₀的概率，即“假阳性”风险。业务含义：把无效方案当有效的代价。例如，上线一个无效功能，浪费开发资源、用户认知成本。α通常设为0.05，但需动态调整：高风险决策（如医疗设备参数变更）用α=0.01；低风险快速迭代（如APP图标颜色测试）可用α=0.1。
β（Type II Error Rate）：未能拒绝错误的H₀的概率，即“假阴性”风险。业务含义：错过真正有效的方案。β越小，检验越“敏感”。但β不能单独设定，它与α、样本量、效应量强相关。
统计功效（1-β）：当H₁为真时，检验正确拒绝H₀的概率。这是被严重低估的核心指标。功效<0.8意味着你有>20%概率错过真实有效的改进！我见过太多团队因样本量不足，功效仅0.3，却信心满满宣布“新策略无效”——这结论本身大概率是错的。
效应量（Effect Size）：差异的实际大小，而非统计显著性。例如，转化率从5.0%升到5.1%（+0.1pp）可能是统计显著的（大样本下），但业务上毫无价值；而从5.0%升到6.5%（+1.5pp）即使p=0.08，也值得深挖。效应量决定“多大差异才算有意义”。

这三者关系由样本量公式绑定。以两独立样本t检验为例，所需样本量n ≈ 2 × (Z_{1-α/2} + Z_{1-β})² × σ² / δ²，其中σ是标准差估计值，δ是你要检测的最小效应量（如转化率提升0.5个百分点）。关键洞察：样本量不是拍脑袋定的，而是由你愿意承担的风险（α, β）和你关心的业务价值（δ）共同决定的。我所有项目的样本量计算，都先明确这三点：

“如果这个改动无效，我最多愿错杀几次？”→ 定α；
“如果它真能提升1.2%转化率，我至少要90%把握抓住它”→ 定β=0.1，功效=0.9；
“低于0.8%的提升，不值得我投入工程资源”→ 定δ=0.008。
代入历史数据σ，即可算出n。没做这一步就开跑，等于蒙眼开车。

3. 实操全流程：从问题定义到结论落地的七步法

3.1 第一步：精准定义业务问题与假设（90%失败源于此）

这是整个流程的地基，却常被跳过。我坚持用“决策画布”强制对齐：

业务问题：我们是否应将“智能推荐模块”全量部署到主站？
决策后果：若上线，预计增加服务器成本¥120万/年；若不上线，可能损失潜在GMV ¥800万/年。
H₀（无罪推定）：智能推荐模块对用户下单转化率无影响，即转化率=基准值3.45%。
H₁（指控）：智能推荐模块提升转化率，即转化率 > 3.45%。
最小有意义效应（δ）：转化率提升 ≥ 0.35个百分点（即≥3.80%），才值得投入。
可接受风险：α=0.05（愿承担5%误上线风险），β=0.1（要求90%把握捕获真实提升）。

注意：H₁明确为“>”，这是单侧检验（只关心是否提升），而非双侧（是否不同）。单侧检验在业务中更常用，因为它把全部α风险集中在你关心的方向，功效更高。若用双侧，同样α下检测相同δ需要更大样本量。我曾因未明确单/双侧，导致某金融风控模型测试多花了3周时间——教训深刻。

3.2 第二步：数据质量审查——比检验本身更重要

再完美的检验，输入垃圾数据，输出必是垃圾。我有三道硬性检查：

数据新鲜度与一致性：检查实验周期内是否有系统变更、节假日、重大营销活动干扰。例如，某次电商测试恰逢“618”大促，流量结构剧变，我立即叫停，重新划定纯净窗口期。
缺失值与异常值处理：对转化率这类比例数据，我绝不简单删除缺失用户。而是用多重插补（Multiple Imputation）处理，因为简单删除可能引入偏差（如高价值用户更易流失导致数据缺失）。异常值用IQR法识别后，不直接剔除，而是分析原因：是数据采集错误（如埋点失效）？还是真实业务现象（如黑产刷单）？前者修正，后者需在分析中说明。
独立性验证：这是最容易被忽视的。假设检验要求观测值相互独立。但在社交APP中，用户行为常通过好友关系传染，导致“群组效应”。我用方差膨胀因子（VIF）检验用户间相关性，若VIF>5，说明存在强聚集性，必须改用集群稳健标准误（Cluster-Robust SE）或分层抽样，否则p值严重失真。某次社区产品测试，未做此检查，p=0.002的“显著”结果，经集群校正后p=0.18，结论彻底反转。

提示：在代码中，我习惯用pandas_profiling生成初始报告，但绝不依赖它。必须人工逐字段核对业务逻辑——机器能发现缺失，但发现不了“这个字段在促销期间被临时修改了计算逻辑”。

3.3 第三步：选择检验方法——没有万能钥匙，只有场景适配

选错方法，一切归零。我按数据类型和问题类型建立决策树：

业务问题类型	数据特征	推荐检验	关键参数与注意事项	实操案例
两组均值比较（如AB测试）	连续变量，两独立组，近似正态	独立样本t检验	需检验方差齐性（Levene检验）。若不齐，用Welch's t检验（自动校正自由度）。切忌盲目用配对t检验——除非同一用户在AB两组都有观测（如前后测）。	某SaaS产品测试新定价页，用户随机分组。t检验显示新页转化率均值高0.42pp，p=0.023，但Levene检验p=0.008（方差不齐），果断切换Welch检验，p=0.027，结论稳健。
多组均值比较（如ABC测试）	连续变量，三组及以上	单因素方差分析（ANOVA）	ANOVA只告诉“至少两组不同”，需事后检验（Post-hoc）找出哪两组差异显著。我首选Tukey HSD（控制整体α），而非LSD（易增假阳性）。	某教育平台测试三种课程难度标签，ANOVA p<0.001，Tukey显示“入门级”vs“进阶级”差异显著（p=0.003），但“进阶级”vs“专家级”不显著（p=0.12），避免过度解读。
分类变量关联（如用户属性与行为）	两个分类变量（如性别×是否付费）	卡方检验（Chi-square）	要求每个单元格期望频数≥5。若不满足，用Fisher精确检验（尤其小样本）。绝不用卡方检验连续变量分箱后的数据——信息损失巨大。	分析用户地域（一线/二线/其他）与付费意愿关系，卡方p=0.001，但查看残差发现“一线城市”付费率显著高于期望，而“其他城市”显著低于，指导区域化运营。
比例比较（如转化率）	二元结果（成功/失败），大样本	Z检验（单样本/两样本）	比t检验更适用于比例数据，且计算更直观。公式：Z = (p̂ - p₀) / √[p₀(1-p₀)/n]。小样本（n<30）或比例接近0/1时，用二项检验（Binomial Test）。	某邮件营销测试，基准转化率p₀=2.1%，新文案组p̂=2.45%，n=5000。Z=(0.0245-0.021)/√[0.021×0.979/5000]≈2.43，p=0.0075，显著。

注意：当数据严重偏离正态（如收入分布极度右偏），我优先用非参数检验（如Mann-Whitney U检验替代t检验），而非强行转换。非参数检验对分布假设更宽松，结果更稳健。

3.4 第四步：执行检验与结果解读——超越p<0.05的深度分析

以某电商平台“购物车按钮颜色”AB测试为例，完整展示我的分析流：

数据概览：

控制组（绿色）：n=12,450，转化数=386，转化率p_c=3.10%
实验组（橙色）：n=12,510，转化数=422，转化率p_e=3.37%
差异Δ = p_e - p_c = +0.27pp

执行两样本Z检验：

合并比例p_pool = (386+422)/(12450+12510) = 808/24960 ≈ 0.03237
标准误SE = √[p_pool(1-p_pool) × (1/n_c + 1/n_e)] = √[0.03237×0.96763×(1/12450 + 1/12510)] ≈ 0.00178
Z = Δ / SE = 0.0027 / 0.00178 ≈ 1.517
查Z表，双侧p = 2×(1-Φ(1.517)) ≈ 2×0.0646 = 0.129

结果解读（这才是重点）：

p=0.129 > α=0.05，不拒绝H₀。但绝不写“新按钮无效”！
计算95%置信区间：Δ ± 1.96×SE = 0.0027 ± 1.96×0.00178 = [-0.0008, +0.0062]，即-0.08pp到+0.62pp。这意味着真实提升可能在-0.08%到+0.62%之间，包含0，也包含有价值的正向空间。
计算实际统计功效：基于δ=0.3pp（业务最小有意义值），σ≈√[p_c(1-p_c)]≈0.173，n≈12500，功效仅0.58。说明本次实验有42%概率错过真实提升！
业务建议：不全量上线，但启动第二阶段测试——扩大样本量至n=25,000/组，预期功效达0.92，再决策。同时分析用户分层：发现新按钮在移动端提升显著（p=0.03），PC端无差异，建议先在移动端灰度。

实操心得：我从不在报告中只放p值。必附：点估计（Δ）、置信区间、功效、效应量（Cohen's h = 2×arcsin(√p_e) - 2×arcsin(√p_c)）。这四者结合，才能支撑决策。

3.5 第五步：可视化呈现——让老板一眼看懂风险与价值

技术人常堆砌表格，业务方看不懂。我的黄金法则：一张图讲清三个故事。

我用Python的matplotlib和seaborn制作“决策漏斗图”：

import matplotlib.pyplot as plt import numpy as np # 模拟数据：各组转化率及95%CI groups = ['Control', 'Variant'] rates = [0.0310, 0.0337] cis = [(0.0292, 0.0328), (0.0319, 0.0355)] # (lower, upper) fig, ax = plt.subplots(figsize=(8, 4)) y_pos = np.arange(len(groups)) # 绘制点估计（圆圈）和置信区间（横线） ax.errorbar(rates, y_pos, xerr=[rates[i]-cis[i][0] for i in range(len(groups))], fmt='o', color='navy', ecolor='gray', capsize=5, capthick=2, ms=8) ax.set_yticks(y_pos) ax.set_yticklabels(groups) ax.set_xlabel('Conversion Rate') ax.set_title('Decision Funnel: Is the Lift Real and Meaningful?') ax.grid(True, axis='x', alpha=0.3) # 添加业务阈值线（最小有意义效应） ax.axvline(x=0.0345, color='red', linestyle='--', label='Min Meaningful Lift (3.45%)') ax.legend() plt.tight_layout() plt.show()

这张图直击要害：

圆圈位置：点估计值（3.10% vs 3.37%）；
横线长度：95%置信区间（控制组：2.92%-3.28%，实验组：3.19%-3.55%）；
红色虚线：业务设定的最小有意义值（3.45%）；
关键洞察：实验组CI上限（3.55%）> 红线，但下限（3.19%）< 红线，且两CI有重叠——说明“可能有效，但证据不足，需更多数据”。老板无需懂p值，看图即知下一步动作。

4. 常见问题与避坑指南：血泪总结的12个实战陷阱

4.1 陷阱1：p值崇拜症——把p=0.049当圣旨，p=0.051当废纸

真实案例：某金融APP测试新风控模型，旧模型坏账率5.2%，新模型4.85%，p=0.052。团队因“不显著”放弃上线。我重新审视：

业务成本：新模型每年减少坏账损失¥2800万；
α=0.05的设定依据？当时只是“大家都用”；
实际功效：因样本量大（n=50万），功效达0.99，p=0.052意味着真实坏账率下降几乎确定，只是统计上未达传统阈值。
解决方案：采用p值函数（p-value function）或置信区间解释。计算95%CI为[4.78%, 4.92%]，完全低于5.2%，且最小下降0.28pp远超业务容忍阈值。最终推动上线，年省¥2600万+。

教训：p值是连续尺度，不是二元开关。决策应基于效应量、置信区间、业务成本收益，而非0.05的魔法线。

4.2 陷阱2：多次检验灾难（Multiple Testing Problem）

场景：市场部同时测试10个不同广告文案，每个做独立t检验，α=0.05。理论上，即使所有文案都无效，也有1-(0.95)^10 ≈ 40%概率至少一个“显著”（假阳性）。
我的应对：

事前规划：只预设1-2个核心KPI（如CTR、转化率），其余为探索性分析；
校正方法：若必须多检验，用Bonferroni校正（α_adj = α / k，k为检验数），或更优的Benjamini-Hochberg FDR控制（控制错误发现比例）；
终极方案：用层次贝叶斯模型，天然处理多组比较，共享信息，提升小样本组估计精度。某次10文案测试，用FDR校正后，仅2个文案FDR<0.1，聚焦资源优化，效率提升3倍。

4.3 陷阱3：忽略混杂变量（Confounding Variables）

案例：某外卖平台测试“预计送达时间”显示功能，实验组平均送达时间缩短2.1分钟，p<0.001，团队欢呼。我查用户分层：实验组中，订单来自写字楼的比例高达78%（控制组52%），而写字楼订单本身配送更快。真正的效应被混杂变量掩盖。
排查步骤：

用倾向得分匹配（PSM）构建可比对照组：基于用户历史订单数、距离、时段等变量，为每个实验组用户匹配相似的控制组用户；
在匹配后样本上重做检验，真实效应降为+0.8分钟（p=0.04）；
进一步用多元回归控制混杂变量，确认效应稳健性。

提示：任何AB测试，必须在实验前做平衡性检验（Balance Test），确保两组在关键协变量上无显著差异。我用tableone库一键生成平衡表，p>0.1才视为合格。

4.4 陷阱4：样本量“够用就行”——导致功效不足的慢性自杀

数据：某B2B SaaS公司测试新销售话术，目标提升线索转化率（基准2.5%）。他们按经验取n=500/组，认为“足够”。
计算现实：设δ=0.8pp（提升至3.3%），σ≈√[0.025×0.975]≈0.158，α=0.05，β=0.2（功效0.8），所需n≈2×(1.96+0.84)²×0.158²/(0.008)²≈12,500/组！
后果：实际n=500，功效仅0.18。这意味着即使话术真能提升1.5pp，他们有82%概率得出“无效”结论，持续用低效话术。
我的做法：所有项目启动前，用statsmodels.stats.power模块精确计算，并写入项目计划书。若资源不足，则：

降低δ（接受更小但仍有价值的提升）；
延长实验周期（增加n）；
改用更敏感的指标（如“首次响应时间”而非“最终转化率”）。

4.5 陷阱5：把相关当因果——检验通过≠方案有效

经典谬误：某教育APP发现“每日登录用户”与“月度付费率”高度相关（r=0.72），p<0.001，于是推出“登录奖励”活动，结果付费率不升反降。
根因：登录行为是结果而非原因——高意向用户本就更活跃。奖励吸引的是低价值用户，稀释了整体付费率。
破解法：

必须用随机对照实验（RCT）验证因果。相关性检验（如Pearson）只能提示关联，不能支持行动；
若无法RCT，用工具变量（IV）或断点回归（RDD）等准实验方法；
在报告中，对任何相关性结论，强制标注：“This is association, not causation. RCT required for action.”

4.6 陷阱6：数据窥探（Data Dredging）——先看数据，再定假设

操作：分析师拿到数据，发现“周三下单用户”转化率最高，于是提出H₁：“周三转化率高于其他工作日”，做检验p=0.03，宣称发现。
问题：他已从数据中“偷看了答案”，检验失去意义。这相当于先看到骰子掷出6，再声称“我预测它会出6”。
防范：

预注册（Pre-registration）：在接触数据前，书面写下H₀/H₁、α、样本量、分析方法，存档；
Holdout验证：用70%数据探索，30%数据验证；
交叉验证：在多个独立数据集上重复检验。

4.7 陷阱7：忽略统计检验的前提假设

常见失效场景：

t检验用于小样本非正态数据：如用户生命周期价值（LTV）分布极度右偏。此时t检验p值失真。对策：用Wilcoxon秩和检验，或对数变换后检验；
卡方检验用于期望频数<5的单元格：如分析“用户职业”（20+类别）与“是否投诉”（二元），多数职业投诉数为0。对策：合并稀有类别（如“其他职业”），或用Fisher精确检验；
时间序列数据用独立检验：如分析每日销售额，数据存在自相关。对策：用ARIMA模型残差检验，或Newey-West标准误。

4.8 陷阱8：效应量被忽视——统计显著 ≠ 业务显著

案例：某电商测试新搜索算法，n=100万，转化率从4.00%升至4.02%（+0.02pp），p=0.0001。统计上极显著，但：

年增GMV = 100万×365×0.0002×客单价¥200 ≈ ¥146万；
算法维护成本¥300万/年；
净亏损¥154万。
我的检查清单：

计算绝对效应量（Δ）和相对提升（Δ/p₀）；
估算业务影响：Δ × 总流量 × 客单价；
对比实施成本（工程、运维、培训）；
设定最小业务效应阈值，并在检验前明确定义。

4.9 陷阱9：用均值掩盖分布——忽略异质性效应

问题：某健康APP测试新提醒功能，整体转化率提升0.5pp（p=0.02），但分层看：

25-34岁用户：+1.2pp（p=0.001）；
55岁以上用户：-0.3pp（p=0.04）。
结论：功能对年轻人有效，对老年人有害。全量上线会伤害核心老年用户群。
解决方案：
强制分层分析：按关键业务维度（年龄、地域、使用频次）预先分组；
交互效应检验：在回归模型中加入分组×处理变量的交互项；
个性化策略：对有效群体推送，对无效/有害群体暂停。

4.10 陷阱10：p值误解的传播链

常见错误说法及修正：

❌ “p=0.03意味着H₀有3%概率为真” → ✅ “p=0.03意味着：若H₀为真，得到当前数据或更极端数据的概率是3%”；
❌ “p值越小，效应越大” → ✅ “p值反映证据强度，效应量（如Cohen's d）才反映大小”；
❌ “不显著=无效应” → ✅ “不显著=证据不足以拒绝H₀，可能因样本小、效应小或测量误差”；
❌ “检验通过，方案一定成功” → ✅ “检验通过，说明在当前条件下，该方案在统计上优于对照，但需结合业务落地能力评估”。

4.11 陷阱11：忽略检验的适用边界

重要边界提醒：

t检验/Z检验：适用于中心极限定理生效（n>30）或总体正态。小样本非正态，用非参数；
卡方检验：要求独立观测。若同一用户多次下单，需用广义估计方程（GEE）；
ANOVA：要求方差齐性、正态性、独立性。违反则用Kruskal-Wallis检验；
所有检验：基于随机抽样。若数据是方便样本（如只收集APP活跃用户），结论不可外推。

4.12 陷阱12：报告写作——让结论可执行、可追溯

我的报告模板必备项：

决策摘要（首段）：用一句话给出行动建议（如“建议在移动端灰度上线，因PC端无效应”）；
核心指标：点估计、95%CI、p值、功效、效应量；
数据质量声明：缺失率、异常值处理、独立性检验结果；
敏感性分析：更换α（0.01/0.1）、不同效应量阈值下的结论变化；
局限性：如“未覆盖iOS 17用户，因该版本占比<1%”；
下一步：明确具体动作（如“扩大样本至25,000，监测7天”）。
绝不出现：“结果表明...”、“综上所述...”、“通过本分析...”——这些是AI腔，业务方要的是指令，不是论文。

5. 工具与资源：我的实战装备箱

5.1 编程实现：Python核心代码库与最佳实践

我摒弃复杂框架，专注scipy、statsmodels、numpy三大基石，确保代码轻量、可读、可审计：

# 1. 两样本比例Z检验（AB测试核心） from statsmodels.stats.proportion import proportion_effectsize, ztest import numpy as np def ab_test_ztest(success_a, n_a, success_b, n_b, alpha=0.05, alternative='two-sided'): """ AB测试Z检验：返回z值、p值、效应量、置信区间 """ # 计算效应量（Cohen's h） effect_size = proportion_effectsize(success_a/n_a, success_b/n_b) # Z检验 count = np.array([success_a, success_b]) nobs = np.array([n_a, n_b]) z_stat, p_value = ztest(count, nobs, value=0, alternative=alternative) # 95%置信区间（使用Wilson Score） from statsmodels.stats.proportion import proportion_confint ci_a = proportion_confint(success_a, n_a, method='wilson') ci_b = proportion_confint(success_b, n_b, method='wilson') # 近似差异CI：用Delta方法 se_diff = np.sqrt((success_a/n_a)*(1-success_a/n_a)/n_a + (success_b/n_b)*(1-success_b/n_b)/n_b) ci_diff =

查看全文

http://www.jsqmd.com/news/1003200/