【算法】BloomFilter概念和原理以及业务中的应用场景_bloom filter

作者：我家小花儿 | 2024-07-21 02:08:24

踩

bloom filter

思考：海量数据下去重，如果是非数值类型的话如何判断？
1

在这里插入图片描述

在这里插入图片描述

记住结论：不存在的一定不存在，存在的不一定存在
注意点
- 布隆过滤器存在误判率，数组越小，所占的空间越小，误判率越高；如果要降低误判率，则数组越长，但所占空间越大
- 最大限度的避免误差, 选取的位数组应尽量大, hash函数的个数尽量多, 但空间占用的浪费和性能的下降
- 业务选择的时候，需要误判率与bit数组长度和hash函数数量的平衡
- 布隆过滤器不能直接删除元素，因为所属的bit可能多个元素有使用
- 如果要删除则需要重新生成布隆过滤器，或者把布隆过滤器改造成带引用计数的方式
如何解决布隆过滤器不支持删除的问题
- Counting Bloom Filter将标准 Bloom Filter位数组的每一位扩展为一个小的计数器（counter），在插入元素时给对应的k（k为哈希函数个数）个Counter的值分别加1，删除元素时给对应的k个Counter的值分别减1。Counting Bloom Filter通过多占用几倍的存储空间的代价，给Bloom Filter增加了删除操作。

在这里插入图片描述

（1）海量数据下垃圾邮件解决方案（垃圾短信、黑名单同理）

在这里插入图片描述

（2）解决缓存穿透解决方案

什么是缓存穿透（查询不存在数据）
- 查询一个不存在的数据，由于缓存是不命中的，如发起为id为“-1”不存在的数据
- 如果从存储层查不到数据则不写入缓存，导致这个不存在的数据每次请求都要到存储层去查询，
- 大量查询不存在的数据，可能DB就挂掉了，是黑客利用不存在的key频繁攻击应用的一种方式
将所有要【缓存的数据】经过处理后存储布隆过滤器中，即对应的bit上是1
当外部请求发起时，首先会把请求的参数通过哈希算法处理，获得相应的哈希值；
根据哈希值计算出位数组中的位置，如果全部计算的hash值对于的bit存储都是1
则表示数据在合理中，从缓存读出（缓存失效则从数据库中取出）
如果计算的hash值对于的bit存储存在一个是0或以上，则表示这条数据不合理，直接返回数据不存在，不查缓存和数据库
如果布隆过滤器认为值不存在，那么值一定是不存在的，无需查询缓存也无需查询数据库

在这里插入图片描述

（3）爬虫URL去重和分库分表注册手机号唯一性解决方案

大量的网页爬取，通过解析已经爬取页面中的网页链接，然后再爬取这些链接对应的网页
同一个网页链接有可能被包含在多个页面中，会导致爬虫在爬取的过程中，重复爬取相同的网页
1
2

在这里插入图片描述

（4）海量数据下-分库分表下手机号重复注册解决方案

在这里插入图片描述

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/859295