赞
踩
C++BitSet位图
位图的优缺点
位图的优点:节省空间,速度快。
位图的缺点:只可以处理整数。
1.新闻客户端推荐系统如何实现推送去重
2.论坛用户创建昵称去重
等等各种问题
所以将哈希与位图结合,即布隆过滤器
为了减小仅仅使用位图导致冲突的概率,布隆使用多个哈希函数,让一个值通过多个哈希函数映射到位图的不同的位置。判断冲突的条件为多个位置都存在值时才冲突,减少了冲突的概率。
但还是存在误判,如果映射到位图的位置都被标记过,就会冲突导致误判
但是如果保证位图的大小合适,这样的设计可以减少误判的概率
但是一个值映射的位越多,空间消耗越大
根据上述分析,布隆过滤器不支持删除,因为布隆过滤器中的值可能会共用一个比特位。
布隆过滤器针对昵称问题:根据上图可知昵称被使用过存在误判。昵称没有被使用过不存在误判
哈希函数的个数与布隆过滤器长度的关系
知乎布隆过滤器原文
K固定设定3个根据公式可以计算出m与n的关系
计算出m=4n;如果有1亿个数据,要开4亿个bit位
复习:
哈希针对字符串处理
BitSet.h
#pragma once #include<vector> #include<cassert> using namespace std; namespace NUC { template<size_t Size>//Size表示开几位 class BitSet { public: BitSet() { _bits.resize((Size / (4 * 8)) + 1, 0);//多开一个整数,保证所有整数都可以映射到 } void Set(size_t x)//把x映射的位标记为1 { assert(x < Size); //先计算x在那个整数上 size_t index_int = x / 32; //计算x在哪一位 size_t index_bit = x % 32; _bits[index_int] |= (1 << index_bit); } void ReSet(size_t x)//把x映射的位标记为0 { assert(x < Size); //先计算x在那个整数上 size_t index_int = x / 32; //计算x在哪一位 size_t index_bit = x % 32; _bits[index_int] &= (~(1 << index_bit)); } bool Find(size_t x)//查找x是否在位图上,true为存在 { assert(x < Size); //先计算x在那个整数上 size_t index_int = x / 32; //计算x在哪一位 size_t index_bit = x % 32; //判断第index_bit为是否为1 return ((_bits[index_int] >> index_bit) & 1) == 1; } private: vector<int>_bits; }; }
BloomFilter.h
#pragma once #include"BitSet.h" #include<string> #include<iostream>//测试用 using namespace std; struct StrHashArv { int operator()(const string& Str) { int Sum = 0; for (int i = 0; i < Str.size(); i++) { Sum += ((i + 1) * Str[i]); } return Sum; } }; struct StrHashSum { int operator()(const string& Str) { int Sum = 0; for (int i = 0; i < Str.size(); i++) { Sum += Str[i]; } return Sum; } }; struct StrHashBKDR { int operator()(const string& Str) { int Sum = 0; for (auto ch : Str) { Sum += ch; Sum *= 131; } return Sum; } }; template<size_t Size, class Key = string, class HashFuc1 = StrHashArv, class HashFuc2 = StrHashBKDR, class HashFuc3 = StrHashSum> class BloomFilter { public: void Set(const Key& k) { size_t PosHash1 = HashFuc1()(k) % Size;//匿名对象,字符串转整形 size_t PosHash2 = HashFuc2()(k) % Size; size_t PosHash3 = HashFuc3()(k) % Size; cout << "Test:" << PosHash1 << " " << PosHash2 << " " << PosHash3 << endl; _bitSets.Set(PosHash1); _bitSets.Set(PosHash2); _bitSets.Set(PosHash3); } bool Find(const Key& k)//true在,false不在。只要有一个映射不存在,就一定不在 { size_t PosHash1 = HashFuc1()(k) % Size;//匿名对象,字符串转整形 if (_bitSets.Find(PosHash1) == false) { return false; } size_t PosHash2 = HashFuc2()(k) % Size; if (_bitSets.Find(PosHash2) == false) { return false; } size_t PosHash3 = HashFuc3()(k) % Size; if (_bitSets.Find(PosHash3) == false) { return false; } return true;//三个位都在,说明可能在。仍然存在冲突 } private: NUC::BitSet<Size>_bitSets; };
测试:
#include"BloomFilter.h" #include<iostream> using namespace std; void Test() { BloomFilter<200>bits; bits.Set("小红"); bits.Set("小刚"); bits.Set("小明"); if (bits.Find("小明")) { cout << "Yes" << endl; } } void Test2() { BloomFilter<400>bits; vector<string>Vet; int Size = 100; for (int i = 0; i < Size; i++) { string Str = "NUC"; Str += to_string(2022 + i); Vet.push_back(Str); } for (int i = 0; i < Vet.size(); i++) { bits.Set(Vet[i]); } bool IsError = false; for (int i = 0; i < Vet.size(); i++) { if (bits.Find(Vet[i]) == false) { IsError = true; break; } } if (IsError == false) { cout << "Yes" << endl; } else { cout << "Error" << endl; } cout << "-----------------" << endl; vector<string>Vet2; for (int i = 0; i < Size; i++) { string Str = "Dod"; Str += to_string(2022 + i); Vet2.push_back(Str); } for (int i = 0; i < Vet.size(); i++) { if (bits.Find(Vet2[i]) == true) { cout << "误判错误" << endl; } } } int main() { //Test(); Test2(); return 0; }
输出结果:
100个昵称只存在两个误判。可以通过扩大布隆过滤器容量来减少误判概率
不使用3个比特位来表示一个值是否存在,而是通过8个比特位(或其他位数)标记。
每个位置都记录映射的个数。
格子中的数字代表有几个值映射到这个位置。
删除时只需要将对应映射位置的数字-1即可。不会影响到其他映射到这一位的值。但是所使用的空间变大
布隆过滤器的优点:
1.节省空间,效率高速度快。
缺点:
1.存在误判,在位图中判断不准确,不在位图中判断准确
2.不支持删除
海量数据处理:
近似算法:
将一个文件的所有query映射到布隆过滤器中,用另一个文件中的query判断是否在布隆过滤器中。在即为交集。
因为判断数据在布隆过滤器不准确所以是近似算法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。