谈谈布隆过滤器(比哈希表省很多内存,简言之更牛逼）

作者：代码探险家 | 2024-06-27 16:51:01

踩

bloom filter 比哈希好在哪里?

之前就阅读过数学之美，知道有这么个基础的算法，可是因为不常用到也就没当回事，最近重新看到它觉得很高大上，就想来mark下

设计初衷：
（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的，不知道当时布隆为啥想到设计时究竟是碰到了啥问题，但这确实很有效
**来看下面的问题：
1.检查一个单词是否拼写正确->看它是否在已经字典中
2.网络爬虫->一个网址是否访问过
3.邮件过滤，建立那些发垃圾邮件的地址的黑名单**

你可能会说哈希表不就行了吗，但在2,3的问题中，网页和垃圾邮件地址全球动不动便是几十亿那，哈希的存储效率也就50%左右
一亿Email（一个占16字节）约为1.6GB内存，要是几十亿个地址就几百GB，谁家这么有钱，都去建天河二号
所以啊，能不能少花点内存来干这事：于是布隆过滤器来了，只要12.5%到25%的哈希表空间就能干这事，但是有点小错误，这个小错误概率太小就基本不担心了

工作原理：
一亿Email => 16亿二进制（bit)==2亿字节（哈希就是16亿字节了）

1.先全部位清0，对每一个电子邮件地址X，用8个不同的随机数产生器（F1，F2，..F8)产生8个信息指纹（比如md5),

2.然后用一个统一的随机数产生器G把这8个信息指纹=>8个自然数g1,g2,g3..,g8,这些位置上的位置为1

1亿个地址放入建好这个布隆过滤器

然后新来一个，同样处理，对应8个二进制位 t1,t2,…,t8
如果全为1，好的=>判定位垃圾邮件

你会想了，这样靠谱不，万一把非垃圾邮件误判了咋办

我们来看看误判的概率：
先来算任何一个位被置为1的概率p，这样你可以简单的就知道
新来一个，有8个位，如果被误判了，此时这8个位全为1，其概率为

我们来推到下一般的情况，假设有m个位，n个元素，有k个哈希函数，
针对单个元素插入来说：

同样的新来一个，要命中其概率为：

上次k=8,n/m=1/16,计算值大约在万分之五，误判率非常低，基本可容忍。*

转载于:https://www.cnblogs.com/freeopen/p/5482972.html

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/代码探险家/article/detail/763098