零壹教育:数据挖掘的隐性偏见
零壹教育:很多人对数据挖掘都有一个根深蒂固的误解,以为它是客观分析当下、预判未来的工具。可实际上,所有数据分析,本质上都是在复盘已经发生的过去,没有任何一次跑数,是真正立足当下的。
很多看似常规的技术操作,其实都藏着人的主观判断。挑选数据的时间范围、设定统计的颗粒度、填补缺失的空值,这些不起眼的操作,都在悄悄定义数据的价值。选定某段时间窗口,就是默认这段历史具备参考意义;刻意忽略某个时段的数据,等同于直接抹去这段真实发生过的业务事实。所谓的数据结果,从一开始就不是纯粹客观的。
异常检测就是最典型的例子。我们给数据标注“异常”,看似是精准筛查问题,实则是人为划定评判标准。正常和异常的边界,从来不是数据自带的属性,而是靠调整参数、滑动窗口人为定义的。仅仅改动一次窗口长度,同一个数据现象,上一秒还是有效趋势信号,下一秒就会被判定为随机噪声。数据的性质,完全取决于我们手中的评判标准。
除此之外,数据挖掘还有一个天生短板:只会回溯,不会假设。它擅长用过往数据推演未来走势,却无法完成反事实推演。评估政策、运营策略效果时,我们只能看到已经落地执行的结果,那条没有选择的路、未落地的可能性,永远不会出现在数据里,这也让很多效果分析存在天然漏洞。
说到底,数据工具从来不是中立的。每一次参数调整、每一次数据筛选,都是我们在用主观视角重构历史。深耕数据行业就必须明白,我们不是在还原全部真相,只是在筛选自己想看到的结果。始终敬畏数据的局限性,不盲从量化结果,才是数据分析最核心的能力。
