当前位置：首页 > news >正文

布隆过滤器：从位图到布谷鸟的演进之路——缓存穿透的终极防线

news 2026/8/2 11:22:23

大家好，我是程序员小策。

先做个自测——你的系统里判断"用户是否已注册"，用的是什么方案？

A. 直接查数据库 — 简单粗暴，但每秒 10 万次注册检查，数据库先扛不住

B. 用 HashSet 全量缓存 — 查得快，但 1 亿用户吃掉好几 GB 内存

C. 用布隆过滤器 — 省内存，但删不了数据，用户注销了怎么办？

D. 用布谷鸟过滤器 — 能删、省内存、查询还更快

选 C 的同学，你已经摸到门道了。但选 C 的时候你心里肯定犯嘀咕：布隆过滤器不能删除，那用户注销了怎么办？

今天这篇文章分两步走：先把布隆过滤器讲透，再引出它的上位替代——布谷鸟过滤器。

问题定义：查存在性，但不想把所有数据都装进内存

场景很常见：判断一个元素"可能存在"还是"一定不存在"。

注册时检查用户名是否重复、爬虫判断 URL 是否已抓取、缓存穿透时拦截非法请求……这些场景有一个共同特点：你不需要知道元素的具体内容，只需要知道"在不在"。

朴素方案是 HashSet，把所有元素都存一份。1 亿个手机号，每个 11 字节，就是 1.1 GB。换成布隆过滤器呢？1% 误判率下，1 亿个元素只需要约 114 MB——省了 90% 的内存。

这就是布隆过滤器存在的意义：用极少的内存，快速判断"一定不存在"。

布隆过滤器：公告栏上的便签

布隆过滤器（Bloom Filter）：一个位数组 + 多个哈希函数的组合。插入时将元素经多个哈希函数映射到位数组的多个位置并置 1；查询时检查这些位置是否全为 1——全为 1 则"可能存在"，有 0 则"一定不存在"。

打个比方：布隆过滤器像是一个公告栏。每个人来了都在上面贴便签（置 1），便签可能重叠——张三和李四的便签贴在了同一个位置。你看到某个位置有便签，只能说"可能有人在"，因为不知道是谁贴的。但如果你看到某个位置是空的，那"一定没人"——因为只要有人来过，就一定会贴便签。

翻译回技术语言：

公告栏	布隆过滤器
便签贴在多个位置	多个哈希函数映射多个 bit
便签重叠	不同元素可能映射到同一个 bit
看到便签 = 可能有人在	bit 全 1 = 可能存在
空位 = 一定没人	有 bit 为 0 = 一定不存在

布隆过滤器的代码实现

importcom.google.common.hash.BloomFilter;importcom.google.common.hash.Funnels;importjava.nio.charset.StandardCharsets;publicclassBloomFilterDemo{publicstaticvoidmain(String[]args){BloomFilter<String>filter=BloomFilter.create(Funnels.stringFunnel(StandardCharsets.UTF_8),1_000_000,0.01);filter.put("user:10086");filter.put("user:10087");System.out.println("user:10086 存在？"+filter.mightContain("user:10086"));// trueSystem.out.println("user:99999 存在？"+filter.mightContain("user:99999"));// 大概率 false// 删除？不支持！没有 remove 方法// filter.remove("user:10086"); // 编译错误}}

Guava 的BloomFilter.create()两个关键参数：预期元素数量和误判率。Guava 会自动计算需要多少个 bit 和多少个哈希函数。1% 误判率下，每个元素约占 9.6 bit，1 亿元素约 114 MB。

布隆过滤器的边界与陷阱

陷阱一：误判是单向的。说"存在"可能是假的，但说"不存在"一定是真的。布隆过滤器只适合"过滤不可能存在的"，不适合"确认一定存在的"。

陷阱二：哈希函数数量不是越多越好。哈希函数越多，每个元素置 1 的 bit 越多，位数组越快被填满，误判率反而上升。让 Guava 自动计算最优值就好，公式是 k = (n/m) × ln2。

陷阱三：满了不会报错，只是误判率升高。插入元素超过预期容量时，布隆过滤器不会报错，但误判率会持续上升。这是个优雅的退化——不会崩，但越来越不准。

布隆过滤器在 Redis 中的实战

生产环境通常不会在 JVM 内存里放布隆过滤器——多节点部署时每个节点各持一份，插入操作无法同步。

Redis 4.0+ 提供了 BF 模块（RedisBloom），把布隆过滤器搬到 Redis 里，所有节点共享一份：

BF.RESERVE my_filter0.011000000# 创建：误判率 1%，容量 100 万BF.ADD my_filter"user:10086"# 插入BF.EXISTS my_filter"user:10086"# 查询：1 = 可能存在BF.EXISTS my_filter"user:99999"# 查询：0 = 一定不存在

集群模式下需要注意：布隆过滤器的 key 是一个整体，不能跨分片。超大数据量需要在应用层做分片——按 key 前缀路由到不同的 Redis 节点。

布隆过滤器的致命缺陷：不能删除

讲到这里，布隆过滤器看起来很完美了。省内存、查询快、Redis 原生支持。

但有一个场景它搞不定：用户注销。

用户注销了账号，你需要从布隆过滤器中移除这个用户。但布隆过滤器没有 remove 方法——因为多个元素可能共享同一个 bit 位，你把一个元素对应的 bit 清零，其他元素就被误判为"不存在"了。

回到公告栏的类比：张三和李四的便签贴在了同一个位置。你想撕掉张三的便签，但一撕就把李四的也撕了。所以你只能贴，不能撕。

这就是核心矛盾：你需要一个既省内存、又能删除的概率型数据结构。

布隆过滤器做不到。但布谷鸟过滤器做到了。

布谷鸟过滤器：储物柜里的名片

布谷鸟过滤器（Cuckoo Filter）：基于布谷鸟哈希的概率型数据结构。插入时存储元素的指纹（fingerprint）而非 bit 位；查询时通过指纹匹配判断存在性；删除时直接移除指纹——天然支持删除。

2014 年，CMU、Harvard 和 Intel 的团队发表了论文“Cuckoo Filter: Practically Better Than Bloom”，标题就差把"我比布隆强"写脸上了。

继续用类比：如果说布隆过滤器是公告栏，那布谷鸟过滤器就是储物柜。每个人来了分配一个格子，里面放一张名片（指纹）。要查谁在不在，看有没有他的名片就行；要删谁，直接把名片抽走——互不干扰。

储物柜	布谷鸟过滤器
每人一个格子放名片	每个元素存一个 fingerprint
抽走名片 = 人走了	删除 fingerprint = 元素移除
看到名片 = 可能有人在	fingerprint 匹配 = 可能存在

为什么是"可能存在"而不是"一定存在"？因为指纹是截断的——不同元素可能算出相同的指纹，就像两个人名片上的名字恰好一样。但这个误判率是可控的，指纹越长，误判率越低。

布谷鸟过滤器的核心原理：鸠占鹊巢

布谷鸟过滤器的名字来自布谷鸟哈希（Cuckoo Hashing）。布谷鸟下蛋时会把别的鸟的蛋推出鸟巢，换成自己的——这就是"鸠占鹊巢"。

插入过程：

对元素做哈希，算出两个候选桶（bucket）
第一个桶有空位？直接放进去
第一个桶满了？踢走一个已有元素，把自己的指纹放进去
被踢走的元素去找它的另一个候选桶……
如此循环，直到所有元素都找到位置，或者达到最大踢出次数（插入失败）

布谷鸟过滤器的代码实现

开源实现参考：CuckooFilter4J

importcom.mgunlogson.cuckoofilter.CuckooFilter;importcom.mgunlogson.cuckoofilter.CuckooFilter.Builder;publicclassCuckooFilterDemo{publicstaticvoidmain(String[]args){CuckooFilter<String>filter=newBuilder<String>((long)1_000_000).withFingerprintLength(12).build();filter.put("user:10086");filter.put("user:10087");System.out.println("user:10086 存在？"+filter.mightContain("user:10086"));// trueSystem.out.println("user:99999 存在？"+filter.mightContain("user:99999"));// 大概率 false// 删除！这是布隆过滤器做不到的booleandeleted=filter.delete("user:10086");System.out.println("删除 user:10086："+deleted);// trueSystem.out.println("删除后查询："+filter.mightContain("user:10086"));// false}}

关键区别一目了然：布谷鸟过滤器有delete()方法，布隆过滤器没有。

Redis 中同样支持布谷鸟过滤器。RedisBloom 从 2.2.0 起提供了CF.ADD/CF.DEL命令：

CF.RESERVE my_cuckoo1000000# 创建布谷鸟过滤器CF.ADD my_cuckoo"user:10086"# 插入CF.DEL my_cuckoo"user:10086"# 删除！布隆过滤器做不到

布谷鸟过滤器的边界与陷阱

陷阱一：重复元素删除有坑。插入同一个元素两次，删除一次只会移除一个 fingerprint，查询时仍然可能返回"存在"。更糟的是，只插入一次却删除两次，可能会误删别人的 fingerprint。解法：要么保证不插入重复元素，要么自己维护计数。

陷阱二：有容量上限，满了直接插入失败。布隆过滤器满了只是误判率升高，不会报错——这是优雅退化。但布谷鸟过滤器满了会直接插入失败——踢出次数达到上限，所有桶都塞满了。解法：设置合理的容量预期，监控填充率，快满时扩容重建。

陷阱三：踢出链可能很长。最坏情况下踢出链很长，甚至无限循环。实践中只要填充率不超过 95%，平均踢出次数通常在 2-3 次以内。

对比表格

维度	布隆过滤器	布谷鸟过滤器
查询性能	O(k)，k 为哈希函数数，通常 7 次	O(1)，最多查 2 个桶
插入性能	O(k)	均摊 O(1)，最坏 O(踢出次数)
删除	❌ 不支持	✅ 支持
空间效率（ε < 3%）	1.44n·log₂(1/ε) bit	1.05n·log₂(1/ε) + 3.15n bit
空间效率（ε > 3%）	更优	更差
误判率可控	✅ 参数可调	✅ 通过指纹长度调整
重复元素	不影响	删除时可能误删
容量溢出	误判率升高（优雅退化）	插入失败（硬性报错）
实现复杂度	简单（位数组 + 哈希）	较复杂（桶 + 踢出逻辑）
成熟度	极高（Guava、RedisBloom）	较新（生态不完善）