赞
踩
往期内容:
面试官问我:Redis处理点赞,如果瞬时涌入大量用户点赞(千万级),应当如何进行处理?【后端八股文(1)】-CSDN博客
本文为【布隆过滤器八股文合集】初版,后续还会进行优化更新,欢迎大家评论交流~
大家第一眼看到这个标题,不知道心中是否有答案了?在面试当中,面试官经常对项目亮点进行深挖,来考察你对这个项目亮点的理解以及思考!这个时候,你如果可以回答出面试官的问题,甚至是主动说出自己的思考,那在面试中是大大加分的~
(1)使用开源的谷歌开源工具类Guava
Spring Boot(七十四):集成Guava 库实现布隆过滤器(Bloom Filter)_guava bloomfilter.create 设置-CSDN博客
(2) 开源Redisson的RBloomFilter
(3) Redis官方提供布隆过滤器插件
(4) Redis提供的bitMap,需要自己实现
各自的缺点:
Guava存储在机器当中,只适合单机,不适合分布式环境当中;
Redis插件需要复杂的配置和高成本支持;
Redis的bitMap需要额外自己去实现;
Redisson 连接Redis即可使用
一种数据结构,用于判断一个元素是否在一个集合中。它是一种概率型算法,能够快速判断一个元素是否在一个集合中,但不能保证 100% 准确。
布隆过滤器通常用于大数据场景中,例如垃圾邮件过滤、网络爬虫中的 URL 去重等。它的优点是快速判断一个元素是否在集合中,时间复杂度为 O(1),空间复杂度为 O(n),可以满足高并发场景的需求。
原理(一个元素多个哈希函数)
将一个元素通过多个哈希函数计算得到多个哈希值,然后将这些哈希值对应到一个长度为 m 的位数组上,将位数组中对应位置置为 1。当判断一个元素是否在集合中时,需要再次计算多个哈希值,然后判断位数组中对应位置是否为 1,如果都为 1 则认为元素在集合中,否则认为元素不在集合中。
或者
①初始化:首先,布隆过滤器会初始化一个位数组,所有位都被设置为0。
②添加元素:当要将一个元素加入到布隆过滤器中时,将该元素通过多个哈希函数计算出多个哈希值,然后将位数组中对应的位置设置为1。
③查询元素:当要查询一个元素是否存在于布隆过滤器中时,将该元素通过相同的哈希函数计算出多个哈希值,然后检查对应的位数组位置是否都为1。如果所有位置都为1,则该元素可能存在于布隆过滤器中;如果存在任何一个位置为0,则该元素一定不存在于布隆过滤器
会发生错误,可能把不存在的认为存在,但是不会把存在的认为不存在。
为了降低布隆过滤器的误判率
1. 空间效率高:布隆过滤器只需要使用一个位数组和多个哈希函数来表示集合,相比使用传统的哈希表或者树等数据结构,布隆过滤器的空间占用更小。
2. 查询效率高:布隆过滤器通过多个哈希函数将元素映射到多个位置,所以查询一个元素只需要进行几次位操作,时间复杂度较低。
3. 可扩展性好:布隆过滤器支持动态添加元素,可以根据需要进行扩展。
1、误判:可能将某个不存在的元素判断为存在
“布隆过滤器说某个元素存在,则大概率在。布隆过滤器说某个元素不在,则一定不在”
2、无法删除: 不支持元素的删除:由于多个元素可能映射到同一个位,所以无法准确地删除一个元素,只能通过重新构建布隆过滤器来实现。
不能,因为删除一个元素会影响其他元素的判断结果
(1)重新构建布隆过滤器( Scalable Bloom Filter 原理 )
流程如下:
① 创建一个新的空布隆过滤器
② 将原布隆过滤器中的所有元素(除了要删除的元素)重新添加到新的布隆过滤器中
③ 用新的布隆过滤器替换原有的布隆过滤器
(2)使用计数器
在原有基础上,加上计数器,当元素加入时,计数器加一,反之,计数器减一。当计数器为零时,key被删除。
布隆过滤器本质上就是哈希函数 + 位图
减少误判的两种方法:① 增加哈希函数的数量;② 增加位图(位数组)的长度
使用 k 个哈希函数计算出 k 个索引
将位数组中对应的 k 个位置设为 1
4. 查询元素时:
使用 k 个哈希函数计算出 k 个索引
检查位数组中对应的 k 个位置是否全为 1,如果有一个为 0 则表示元素不存在
布隆过滤器的主要参数包括:位数组长度m、哈希函数个数k、预计要插入的元素个数n
其中p为预期的最大误判率(一般为: 0.1%或更低 )
- m = -(n * ln(p)) / (ln(2)^2)
- k = (m/n) * ln(2)
以1亿为例,
m = -(100,000,000 * ln(0.001)) / (ln(2)^2) ≈ 479,430,000
即需要一个长度为约 4.79 亿比特的位数组
计算哈希函数的数量:
k = (m/n) * ln(2) ≈ 7
所以需要使用 7 个相互独立的哈希函数
已知1 字节 = 8 比特
那么位数组所需的存储空间为:
479,430,000 / 8 = 59,928,750 字节
再转换为 GB:
59,928,750 / (1024 * 1024 * 1024) = 55.85 GB
综上所述,对于存储 1 亿个元素,允许 0.1% 最大误判率的布隆过滤器,需要约 55.85 GB 的存储空间。
(1)分批初始化
将大量数据分批次进行初始化,每次初始化一部分
这样可以减轻 Redis 单次操作的压力
可以考虑利用多线程或异步任务的方式来加速
(2)使用本地内存初始化
先在本地内存中构建好布隆过滤器
然后一次性将整个布隆过滤器数据同步到 Redis 中
这样可以利用内存的高速计算能力来加速初始化
(3)采用分布式架构
将布隆过滤器拆分到多个 Redis 实例中
每个实例负责部分数据的初始化和查询
这样可以利用分布式计算的优势来提升性能
使用多级缓存结构:
除了布隆过滤器,还可以使用其他缓存手段,形成多级缓存
当布隆过滤器判断数据不存在时,可以尝试访问其他缓存层
(1)当有新的数据需要加入时,可以采用以下方法:
创建一个新的、更大的布隆过滤器。
将原有的布隆过滤器中的所有数据 hash 并设置到新的布隆过滤器中。
再将新的数据 hash 并设置到新的布隆过滤器中。
(2)合并两个布隆过滤器的具体做法
确保两个布隆过滤器的大小(位数组长度)相同。
对两个布隆过滤器的对应位进行逻辑或操作(OR),得到合并后的新布隆过滤器。
(1)可扩容:
Scalable Bloom Filter (SBF):(动态扩容原理)重新计算新的布隆过滤器,将旧的过滤器迁移至新的
(2)可删除:
Counting Bloom Filter (CBF):(计数布隆过滤器)插入的时候,会将该位对应的值+1,删除则减一
使用布隆过滤器
布隆过滤器
布隆过滤器
元素个数增加,导致误判率上升
需要调整参数来重新控制误判率
内存占用显著增加,可能影响系统性能
---------------------------------------------------------------------------------------------------------------
后期新的八股文合集文章会仅粉丝可见,感兴趣的小伙伴可以点个关注~
更多精彩内容以及一手消息请关注公众号:绝命Coding
公众号私信回复“免费资料”可免费获取简历模板以及技术亮点合集等免费资料
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。