C++_海量数据处理布隆过滤器（位图+哈希_C++实现_应用分析）

作者：天景科技苑 | 2024-06-27 16:48:40

踩

C++BitSet位图
位图的优缺点
位图的优点：节省空间，速度快。
位图的缺点：只可以处理整数。

文章目录

1.布隆过滤器提出

1.新闻客户端推荐系统如何实现推送去重
2.论坛用户创建昵称去重
等等各种问题

用哈希表存储用户记录，缺点：需要空间太大
用位图存储用户记录，使用C++哈希中的字符串特换成整数映射到位图中。
缺点：无法处理字符串转化为整数的冲突问题，会导致用户昵称没有用过，但还是判定使用过的问题

所以将哈希与位图结合，即布隆过滤器

2.布隆过滤器概念

为了减小仅仅使用位图导致冲突的概率，布隆使用多个哈希函数，让一个值通过多个哈希函数映射到位图的不同的位置。判断冲突的条件为多个位置都存在值时才冲突，减少了冲突的概率。

在这里插入图片描述
但还是存在误判，如果映射到位图的位置都被标记过，就会冲突导致误判

但是如果保证位图的大小合适，这样的设计可以减少误判的概率

但是一个值映射的位越多，空间消耗越大

根据上述分析，布隆过滤器不支持删除，因为布隆过滤器中的值可能会共用一个比特位。

布隆过滤器针对昵称问题：根据上图可知昵称被使用过存在误判。昵称没有被使用过不存在误判

3.C++实现布隆过滤器

哈希函数的个数与布隆过滤器长度的关系
知乎布隆过滤器原文
在这里插入图片描述
K固定设定3个根据公式可以计算出m与n的关系
计算出m=4n;如果有1亿个数据，要开4亿个bit位

复习：
哈希针对字符串处理

C++实现BitSet

BitSet.h

#pragma once

#include<vector>
#include<cassert>

using namespace std;

namespace NUC
{
	template<size_t Size>//Size表示开几位
	class BitSet
	{
	public:
		BitSet() {
			_bits.resize((Size / (4 * 8)) + 1, 0);//多开一个整数，保证所有整数都可以映射到
		}

		void Set(size_t x)//把x映射的位标记为1
		{
			assert(x < Size);
			//先计算x在那个整数上
			size_t index_int = x / 32;
			//计算x在哪一位
			size_t index_bit = x % 32;
			
			_bits[index_int] |= (1 << index_bit);
		}

		void ReSet(size_t x)//把x映射的位标记为0
		{
			assert(x < Size);
			//先计算x在那个整数上
			size_t index_int = x / 32;
			//计算x在哪一位
			size_t index_bit = x % 32;

			_bits[index_int] &= (~(1 << index_bit));
		}

		bool Find(size_t x)//查找x是否在位图上，true为存在
		{
			assert(x < Size);
			//先计算x在那个整数上
			size_t index_int = x / 32;
			//计算x在哪一位
			size_t index_bit = x % 32;

			//判断第index_bit为是否为1
			return ((_bits[index_int] >> index_bit) & 1) == 1;
		}
	private:
		vector<int>_bits;
	};
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54

BloomFilter.h

#pragma once

#include"BitSet.h"
#include<string>
#include<iostream>//测试用

using namespace std;

struct StrHashArv
{
	int operator()(const string& Str)
	{
		int Sum = 0;
		for (int i = 0; i < Str.size(); i++)
		{
			Sum += ((i + 1) * Str[i]);
		}
		return Sum;
	}
};

struct StrHashSum
{
	int operator()(const string& Str)
	{
		int Sum = 0;
		for (int i = 0; i < Str.size(); i++)
		{
			Sum += Str[i];
		}
		return Sum;
	}
};

struct StrHashBKDR
{
	int operator()(const string& Str)
	{
		int Sum = 0;
		for (auto ch : Str)
		{
			Sum += ch;
			Sum *= 131;
		}
		return Sum;
	}
};

template<size_t Size, class Key = string, class HashFuc1 = StrHashArv, class HashFuc2 = StrHashBKDR, class HashFuc3 = StrHashSum>
class BloomFilter
{
public:
	void Set(const Key& k)
	{
		size_t PosHash1 = HashFuc1()(k) % Size;//匿名对象,字符串转整形
		size_t PosHash2 = HashFuc2()(k) % Size;
		size_t PosHash3 = HashFuc3()(k) % Size;
		cout << "Test:" << PosHash1 << " " << PosHash2 << " " << PosHash3 << endl;
		_bitSets.Set(PosHash1);
		_bitSets.Set(PosHash2);
		_bitSets.Set(PosHash3);
	}

	bool Find(const Key& k)//true在，false不在。只要有一个映射不存在，就一定不在
	{
		size_t PosHash1 = HashFuc1()(k) % Size;//匿名对象,字符串转整形
		if (_bitSets.Find(PosHash1) == false)
		{
			return false;
		}
		size_t PosHash2 = HashFuc2()(k) % Size;
		if (_bitSets.Find(PosHash2) == false)
		{
			return false;
		}
		size_t PosHash3 = HashFuc3()(k) % Size;
		if (_bitSets.Find(PosHash3) == false)
		{
			return false;
		}
		return true;//三个位都在，说明可能在。仍然存在冲突
	}
private:
	NUC::BitSet<Size>_bitSets;
};
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85

测试：

#include"BloomFilter.h"

#include<iostream>
using namespace std;

void Test()
{
	BloomFilter<200>bits;
	bits.Set("小红");
	bits.Set("小刚");
	bits.Set("小明");
	if (bits.Find("小明"))
	{
		cout << "Yes" << endl;
	}
}

void Test2()
{
	BloomFilter<400>bits;
	vector<string>Vet;
	int Size = 100;
	for (int i = 0; i < Size; i++)
	{
		string Str = "NUC";
		Str += to_string(2022 + i);
		Vet.push_back(Str);
	}
	for (int i = 0; i < Vet.size(); i++)
	{
		bits.Set(Vet[i]);
	}
	bool IsError = false;
	for (int i = 0; i < Vet.size(); i++)
	{
		if (bits.Find(Vet[i]) == false)
		{
			IsError = true;
			break;
		}
	}
	if (IsError == false)
	{
		cout << "Yes" << endl;
	}
	else
	{
		cout << "Error" << endl;
	}

	cout << "-----------------" << endl;
	vector<string>Vet2;
	for (int i = 0; i < Size; i++)
	{
		string Str = "Dod";
		Str += to_string(2022 + i);
		Vet2.push_back(Str);
	}
	
	for (int i = 0; i < Vet.size(); i++)
	{
		if (bits.Find(Vet2[i]) == true)
		{
			cout << "误判错误" << endl;
		}
	}
}

int main()
{
	//Test();
	Test2();
	return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74

输出结果：
在这里插入图片描述
100个昵称只存在两个误判。可以通过扩大布隆过滤器容量来减少误判概率

4. 扩展BloomFilter使得它支持删除元素的操作

不使用3个比特位来表示一个值是否存在，而是通过8个比特位(或其他位数)标记。
每个位置都记录映射的个数。
在这里插入图片描述
格子中的数字代表有几个值映射到这个位置。
删除时只需要将对应映射位置的数字-1即可。不会影响到其他映射到这一位的值。但是所使用的空间变大

5.布隆过滤器的总结应用

布隆过滤器的优点：
1.节省空间，效率高速度快。
缺点：
1.存在误判，在位图中判断不准确，不在位图中判断准确
2.不支持删除

海量数据处理：

给两个文件，分别有100亿个query(字符串)，我们只有1G内存，如何找到两个文件交集？给出和近似算法

近似算法：

将一个文件的所有query映射到布隆过滤器中，用另一个文件中的query判断是否在布隆过滤器中。在即为交集。
因为判断数据在布隆过滤器不准确所以是近似算法。

代码位置

Github
Gitee

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/天景科技苑/article/detail/763086