赞
踩
作者:@小萌新
专栏:@C++进阶
作者简介:大二学生 希望能和大家一起进步!
本篇博客简介:介绍并模拟实现哈希的应用 – 布隆过滤器
我们在使用新闻客户端看新闻时,它会给我们不停地推荐新的内容,它每次推荐时要去重,去掉那些已经看过的内容。问题来了,新闻客户端推荐系统如何实现推送去重的? 用服务器记录了用户看过的所有历史记录,当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选,过滤掉那 些已经存在的记录。 如何快速查找呢?
这里提出三种解决方案
布隆过滤器是由布隆(Burton Howard Bloom)在1970年提出的 一种紧凑型的、比较巧妙的概率型数据结构,特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”,它是用多个哈希函数,将一个数据映射到位图结构中。此种方式不仅可以提升查询效率,也可以节省大量的内存空间。
下面我们给出一张图来展示布隆过滤器的一些特点
我们假设数据的插入顺序是 URL1 2 3 4
URL1 2 3 插入的时候都通过hash算法找到了没有被设置的位 所以说都顺利插入成功了
但是轮到了URL4插入的时候通过hash算法算出来的三个位置缺都被设置了 因此会造成插入失败 但是实际上该数据并不存在
这也就是我们说的误判的情况
那么这里就会抛出来一个问题了 一个误判率很高的容器是我们不想要的 那么我们应该如何降低误判率呢
这里涉及到两个方面
如果布隆过滤器的大小过小 则很快就会被填满 从而导致误判率升高
如果哈希算法的个数过多 则会导致布隆过滤器中被设置的位数过多 造成误判率的上升
而如果哈希算法的个数过少 也会导致误判率的上升
所以说哈希算法的个数一般控制在2~3个比较合适
布隆过滤器可以被实现位一个模板类
因为插入布隆过滤器的元素大部分情况下是字符串 所以我们可以将缺省值设置为string类
如果是其他类型的参数我们只要提供对应的算法将其转化为整型即可
代码表示如下
template<size_t N , class K = string ,
class Hash1 = BKDRHash, class Hash2 = APHash, class Hash3 = DJBHash>
class BloomFilter
{
Hash1 h1;
Hash2 h2;
Hash3 h3;
public:
// ...
private:
bitset<N> _bs;
};
我们使用的三种算法分别是BKDRHash算法 APHash算法和DJBHash算法
我们写出这三种算法的类并且给出它们的仿函数
struct BKDRHash { size_t operator()(const string& s) { size_t value = 0; for (auto x : s) { value = value * 131 + x; } return value; } }; struct APHash { size_t operator()(const string& s) { size_t value = 0; for (size_t i = 0; i < s.size(); i++) { if ((i & 1) == 0) { value ^= ((value << 7) ^ s[i] ^ (value >> 3)); } else { value ^= (~((value << 11) ^ s[i] ^ (value >> 5))); } } return value; } }; struct DJBHash { size_t operator()(const string& s) { if (s.empty()) { return 0; } size_t value = 5381; for (auto ch : s) { value += (value << 5) + ch; } return value; } };
布隆过滤器的插入很简单 我们这里不考虑是否之前存在数据的影响
要插入一个数据就将通过哈希函数计算出来的位置设置位
// 插入
void Insert(const K& k)
{
size_t i1 = h1(k) % N;
size_t i2 = h2(k) % N;
size_t i3 = h3(k) % N;
// 设置位
_bs.set(i1);
_bs.set(i2);
_bs.set(i3);
}
我们这里使用了三种哈希算法类创建出来的对象调用仿函数来处理数据
当然如果不想创建对象也可以使用匿名对象的方式来使用 代码表示如下
size_t i1 = Hash1()(k);
布隆过滤器的查找的关键是判断不存在的位
如果有位不存在 那么它一定不存在
如果全部位存在 那么它可能存在
// 查找 bool Test(const K& k) { size_t i1 = h1(k) % N; size_t i2 = h2(k) % N; size_t i3 = h3(k) % N; if (_bs.test(i1) == false) { return false; } if (_bs.test(i2) == false) { return false; } if (_bs.test(i3) == false) { return false; } return true; }
布隆过滤器的删除函数是不存在的
因为删除一个数据会影响其他数据的真实性
并且这个数据也不一定存在 只是有可能存在
那么我如何能够让布隆过滤器支持删除呢
但是布隆过滤器没有提供删除函数 这是为什么呢?
因为布隆过滤器本身就是为了提高效率和节省空间被发明出来的
如果我们将每个bit位置设置一个对应的计数值 对于空间会有一个极大的消耗
磁盘的读取数据是很慢的 如果我们每次删除都要读取一遍磁盘这对于效率又是一个极大的消耗
考虑以上种种因素 布隆过滤器不设置删除成员函数
布隆过滤器的使用场景有一个大前提 那就是它的误判不会对业务逻辑有很大的影响
比如说当我们重新改变我们的用户名字的时候(网站规则用户名字不能重复)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。