赞
踩
散列表(Hash table,也叫哈希表),是根据键(Key)而直接访问在内存存储位置的数据结构。也就是说,它通过计算一个关于键值的函数,将所需查询的数据映射到表中一个位置来访问记录,这加快了查找速度。这个映射函数称做散列函数,存放记录的数组称做散列表。
散列表的实现常常叫做散列(hashing)。散列是一种以常数平均时间执行插入、删除、和查找的技术。
顺序结构以及二叉搜索树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键码的多次比较。顺序查找时间复杂度为O(N),二叉搜索树中为树的高度,即O(log2N),搜索的效率取决于搜索过程中元素的比较次数。
理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。如果构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素。
实现哈希表我们可以采用两种方法:
哈希表通常是基于数组实现的,但是相对于数组,它存在更多优势:
哈希表同样存在不足之处:
1、定义
将每个关键字映射从0到TableSize-1这个范围中的某个数。并且放到适当的单元中。这个映射就叫做散列函数。
例如:数据集合{1,7,6,4,5,9};
哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小。
其实哈希表的底层是一个数组,有些书上也称之为哈希桶
哈希函数中每次取余后的值为我们所要在哈希表中存储的位置,例如1就在1%10=1的位置处存放这个值即可.取1的时候也直接在1下标处取即可,所以在哈希表中增删查改的时间复杂度都能达到O(1)
用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快 但是此时就要注意一个问题了,假设此时我们要存储44这个元素,发现44%10=4,44同样也可以放到下标为4的这个位置,但是我们发现4这个下标位置处其实是有元素的,此时就发生了哈希冲突,所以当发生了哈希冲突的时候,我们就需要做两件事情,第一是在冲突发生前避免哈希冲突,第二点是如果发生了哈希冲突就要去解决哈希冲突.
2、常见的哈希函数
1.直接定制法–(常用)
取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B
优点:简单、均匀 缺点:需要事先知道关键字的分布情况
使用场景:适合查找比较小且连续的情况
面试题:字符串中第一个只出现一次字符
2.除留余数法–(最常用的方法)
设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址
3.平方取中法–(了解)
假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址 。
平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况
4.折叠法–(了解)
折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和, 并按散列表表长,取后几位作为散列地址。
折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况
5.随机数法–(了解)
选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数函数。
通常应用于关键字长度不等时采用此法
6.数学分析法–(了解)
设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某 些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据 散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。
不同的关键码,使用一个哈希函数,哈希到了同一个位置,这种现象称为哈希冲突或者哈希碰撞
一般来说我们都想去避免哈希冲突,但是冲突是无法全部避免的,最终我们仍要去解决哈希冲突,先来看如何避免哈希冲突:
1、哈希冲突的避免(两种方式)
(1)设计精妙的哈希函数
其实当数据的个数大于我们数组长度的时候,就一定会发生哈希冲突,冲突的发生是必然的,但我们能做的应该是尽量的降低冲突率。比如通常保证表的大小是素数,和射击精妙的哈希函数。
假设要存储某家公司员工登记表,如果用手机号作为关键字,那么极有可能前7位都是相同的,那么我们可以选择后面的四位作为散列地址,如果这样的抽取工作还容易出现 冲突,还可以对抽取出来的数字进行反转(如1234改成4321)、右环位移(如1234改成4123)、左环移位、前两数与后两数叠加(如1234改成12+34=46)等方 法。
数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况
注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突
(2)负载因子(装填因子)调节
负载因子和冲突率的关系粗略演示:
已知哈希表中已有的关键字个数是不可变的,那么为了我们的负载因子变小,我们能调整的就只有哈希表中的数组的大小了,也就是我们散列表的长度,散列表长度越大,负载因子越小.
2、哈希冲突的解决
(1)分离链接法
其做法是将散列到同一值的所有元素保留在一个表中。
这是一种数组+链表的组合方式。除了链表外,任何方案都有可能用来解决冲突现象,比如一棵二叉查找树甚至另外一个散列表均可以胜任。
(2)开放定址法
在开放定址法中,如果有冲突发生,那么就要尝试选择另外的单元,直到找出空的单元为止。更一般的,单元h_0(X),h_1(X),h_2(X),……,相继试选,其中h_i(X) = (Hash(X)+F(i)) mod TableSize,且F(0) = 0;函数F是冲突解决方法。因为所有的数据都要置入表内,所以开放定址散列法所需要的表比分离链接法用的表大。一般来说,开放定址法的装填因子应该低于0.5。现在我们就来考虑三个通常冲突解决方法。
线形探测法
在线形探测法中,函数F是i的线性函数,典型类型是F(i) = i。这相当于逐个探测单元(必要时可以绕回)以查找出一个空单元。
例如将关键字{89,18,49,58,69}插入到一个散列表的情况:
空表 | 插入89 | 插入18 | 插入49 | 插入58 | 插入69 | |
---|---|---|---|---|---|---|
0 | 49 | 49 | 49 | |||
1 | 58 | 58 | ||||
2 | 69 | |||||
3 | ||||||
4 | ||||||
5 | ||||||
6 | ||||||
7 | ||||||
8 | 18 | 18 | 18 | 18 | ||
9 | 89 | 89 | 89 | 89 | 89 |
第一个冲突关键字在49时产生,它被放入下一个空闲地址,即地址0,该地址是开放的。关键字58依次和18,89,49发生冲突后,试选三次后才能找到一个空单元。对于69的处理也是类似的。只要表足够大总能找到一个自由单元。但是花费的时间是相当多的。更糟糕的是,即使表相对较空,这样占据的单元也会开始形成一些区块,其结果称为一次聚集,于是散列到区块中的任何关键字都需要多次试选单元才能解决冲突,然后该关键字被添加到相应的区块中。
平方探测法
平方探测法是消除线形探测中一次聚集问题的冲突解决办法。平方探测就是冲突函数为二次函数的探测方法。流行的选择是F(i) = i^2;
空表 | 插入89 | 插入18 | 插入49 | 插入58 | 插入69 | |
---|---|---|---|---|---|---|
0 | 49 | 49 | 49 | |||
1 | ||||||
2 | 58 | 58 | ||||
3 | 69 | |||||
4 | ||||||
5 | ||||||
6 | ||||||
7 | ||||||
8 | 18 | 18 | 18 | 18 | ||
9 | 89 | 89 | 89 | 89 | 89 |
当49和89产生冲突时,其下一位置为下一单元,该单元是空的,因此49就被放在那里。此后58在位置8处发生了冲突,其后相邻的单元经探测得知发生了另外的冲突。下一个探测单元在距位置8为2^2 = 4远处,这个单元是个空单元,因此关键字58就被放在单元2处。对于关键字啊69的处理过程也是一样的。
定理:如果使用平方探测,且表的大小为素数,那么当表至少有一半是空的时候,总能够插入一个新的元素。
虽然平方探测排除了一次聚集,但是散列到同一位置上的那些元素将探测相同的备选单元,这叫二次聚集。
双散列
双散列可以排除二次聚集问题,不过要花费另外的一些乘法和除法形销。对于双散列,一种流行的选择是F(i) = i·hash_2(X)。这个公式是说,我们将第二个散列函数应用到X并在距离hash_2(X), 2hash_2(X)等处检测。hash_2(X)选择的不好将是灾难性的。例如,若把99插入到前面的例子的输入中,则通常的选择是hash_2(X) = X%9;将不起作用。因此函数不一定要算的0值。另外,保证所有的单元都能被探测到也是很重要的。诸如hash_2(X) = R - (X%R)这样的函数将起到良好的作用,其中R为小于TableSize的素数。
空表 | 插入89 | 插入18 | 插入49 | 插入58 | 插入69 | |
---|---|---|---|---|---|---|
0 | 69 | |||||
1 | ||||||
2 | ||||||
3 | 58 | 58 | ||||
4 | ||||||
5 | ||||||
6 | 49 | 49 | 49 | |||
7 | ||||||
8 | 18 | 18 | 18 | 18 | ||
9 | 89 | 89 | 89 | 89 | 89 |
第一个冲突发生在插入49时。hash_2(49) = 7-0 =7;故49会被插入到6的位置。hash_2(58) = 7-2 = 5,于是58被插入到位置3。最后69产生冲突,从而被插入到距离为hash_2(69) = 7-6 = 1的地方。
对于使用平方探测的开放地址散列法,如果表的元素填的太满的话,那么操作的运行时间将开始消耗过长,且Insert操作可能失败。这可能发生在有太多的移动和插入混合的场合。此时一种解决方案是建立另外一个大约两倍大的表(而且使用一个相关的新散列函数),扫描整个原始散列表,计算每个(未删除元素的新散列值并将其插入到新表中)。
例如,将元素13,15,24,6插入到大小为7的开放定址散列表中,散列函数是h(X) = X mod 7。
如果再将23插入后,将有70%的单元是满的。因为填的过满,所以我们建立一个新表,该表的大小之所以为17,是因为17是原表大小的两倍后的第一个素数。新的散列函数为h(X) = X mod 17。
整个操作就叫做再散列。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。