什么是置信区间,这是我听过最透彻的工程学解释
1.点估计
通过有限的几个样本(比如 5 台样机),套用数学公式(如最大似然估计 MLE 或中位秩),算出来的一个唯一的、确定的数值(比如 MTBF = 12000 小时,或者威布尔形状参数β=2.5)。
但在真实的物理世界,这100 万台产品的“真实寿命(总体参数 Population Parameter)”客观存在但永远未知。
抽出来的 5 台样机只是100万台产品中极其偶然地抓出来的 5 个。如果重复一次,再抓 5 个球测一遍,算出来的 MTBF 可能只有 2000 小时!
这种偶然(随机)得出来的结果,当成所有产品真实分布的定义,是“盲目的自信”。
2.置信度与置信区
对点估计这种盲目的自信进行破除,便有了置信区间(Confidence Intervals / Bounds),其本质就是量化“无知”与“风险”。
既然永远无法确切知道“真实的总体寿命”是多少,就不能只给出一个孤立的数字:需要给出一个“范围(区间)”,并标明我们对这个范围有多大的把握,这个把握就是置信度(简单理解就是信心,有信心的程度)。
举例:“90% 的置信度”是什么意思?
重复做 100 次同样的抽样测试(每次抽 5 台),每次都会得到一个不同的区间。那么在这 100 个区间里,大约有 90 个区间会真正把“上帝视角下的真实 MTBF”给套住(网住)。剩下的 10 次,抽到了极端偏离的样本,不在区间里边。
这就是在量化风险——我们承认自己有 10% 的概率是在胡说八道,但用数学保证了那 90% 的正确性。
3. “无知的宽度”:样本量(Sample Size)
决定置信区间“宽度”的,主要有两个因素:
- 数据的离散度(变异有多大)
- 样本量(你测了多少台)
当测 3 台样机时:点估计结果为 12000 小时。因为样本太少(代表性差),统计学对其进行惩罚。计算出的 90% 置信区间可能很宽:[2000 H, 40000 H]。
当测100 台样机时:点估计结果可能依然是 12000 小时。但此时置信区间迅速收窄:[11000 H, 13000 H]。
即我们用极大的测试成本换来了对未知世界极高的“确定性”。
置信区间的宽度,是为了省下测试费而付出的“无知代价”。测得越少,区间越宽,面临的不确定性风险就越大。
置信区间最伟大的工程价值:能够极其精准地照出“样本量(数据量)”的贫乏。
4.单侧置信下限(LCB)
在真实的可靠性工程里,我们其实并不关心“置信上限”。如果产品的真实寿命是 40000 小时(远超预期),那么合家欢喜。
但是让人真正担心的是可能导致违约、召回的置信下限。
客户合同:MTBF 必须大于 1万小时。
点估计:1.2万小时(表面上满足要求)。
在 90% 的置信度下,其置信下限为7000小时,即真实寿命有可能跌落到 7000 小时,不能满足客户1万小时的要求。
置信下限的价值:做出了最坏的打算。如果连“最坏的打算(LCB)”都满足了客户的要求,才能真正高枕无忧。
5.置信区间计算方法
数据服从正态分布,计算方式为:
- X:均值
- Z:Z-value(从下表选择)
- s:标准差
- n:样本数
