赞
踩
顺序结构以及平衡树中,元素关键码与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过关键 码的多次比较。顺序查找时间复杂度为O(N),平衡树中为树的高度,即O(log2N),搜索的效率取决于搜索过程中元素的比较次数。
理想的搜索方法:可以不经过任何比较,一次直接从表中得到要搜索的元素。如果构造一种存储结构,通过某种函 数 (hashFunc) 使元素的存储位置与它的关键码之间能够建立一一映射的关系,那么在查找时通过该函数可以很快找到该元素。
增删查改的时间复杂度为O(1)。
当向该结构中:
该方式即为哈希(散列)方法, 哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表 (Hash Table) (或者称散列表)
例如:数据集合{1 ,7 ,6 ,4 ,5 ,9};
哈希函数设置为: hash(key) = key % capacity; capacity为存储元素底层空间总的大小。
用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快。
问题:按照上述哈希方式,向集合中插入元素44,会出现什么问题?
解:此时两个不同的关键字key,通过相同的哈希函数找到了同一个位置。把这种现象叫做哈希冲突。
对于两个数据元素的关键字ki 和 kj(i != j),有 ki != kj ,但有: Hash( ki ) == Hash( kj),即: 不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。
把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。
在哈希表中,冲突是必然发生的,可以认为一般情况下:要存储的元素是远远大于表的长度的。
首先,我们需要明确一点,由于我们哈希表底层数组的容量往往是小于实际要存储的关键字的数量的,这就导致一个问题, 冲突的发生是必然的(即哈希冲突是不可避免的),但我们能做的应该是尽量的降低冲突率。
引起哈希冲突的一个原因可能是: 哈希函数设计不够合理。
哈希函数设计原则:
常见哈希函数:
取关键字的某个线性函数为散列地址: Hash ( Key) = A*Key + B 。
优点:简单、均匀 。
缺点:需要事先知道关键字的分布情况 。
使用场景:适合查找比较小且连续的情况。
面试题: 字符串中第一个只出现一次字符
class Solution {
public int firstUniqChar(String s) {
int[] count=new int[26];//题目说了只有小写字母
for(int i=0;i<s.length();i++){
char ch=s.charAt(i);
count[ch-97]++;
}
for(int i=0;i<s.length();i++){
if(count[ch-97]==1){
return i;
}
}
return -1;
}
}
设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:
Hash(key) = key% p(p<=m),将关键码转换成哈希地址
解决哈希冲突两种常见的方法是: 闭散列和开散列
闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以 把key存放到冲突位置中的“下一个” 空位置中去。 那如何寻找下一个空位置呢?
1. 线性探测
比如上面的场景,现在需要插入元素44,先通过哈希函数计算哈希地址,下标为4,因此44理论上应该插在该 位置,但是该位置已经放了值为4的元素,即发生哈希冲突。
线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。
弊端:线性探测会把尽可能冲突的元素放在一起。并且不好删除。(假设直接删除了元素4,会影响到14,24,34等冲突的元素)
2. 二次探测
线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,找下一个空位置的方法为 : Hi = (H0 +i2 )% m, 或者: Hi = (H0 -i2 )% m。 其中: i = 1,2,3… ,(i表示第几次冲突 ) 是通过散列函数Hash(x)对元素的关键码 key 进行计算得到的位置, m是表的大小。 对于2.1中如果要插入44,产生冲突,使用解决后的情况为:
研究表明:当表的长度为质数且表装载因子a不超过0.5时,新的表项一定能够插入,而且任何一个位置都不 会被探查两次。因此只要表中有一半的空位置,就不会存在表满的问题。在搜索时可以不考虑表装满的情 况,但在插入时必须确保表的装载因子a不超过0.5,如果超出必须考虑增容。
因此:比散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷。
开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子 集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。
从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。
开散列,可以认为是把一个在大集合中的搜索问题转化为在小集合中做搜索了。
哈希桶其实可以看作将大集合的搜索问题转化为小集合的搜索问题了,那如果冲突严重,就意味 着小集合的搜索性能其实也时不佳的,这个时候我们就可以将这个所谓的小集合搜索问题继续进行转化,例如:
Java当中的HashMap就是采用:数组+链表+红黑树。
hashMap在扩容的时候需要注意什么?在数组扩容的时候需要重新哈希。
问题:如果key是引用数据类型,应该怎么办?重写hashcode和equals方法。
1、两个对象的hashcode一样,则equals一定一样吗?不一定。
2、两个对象的equals一样,则hashcode一定一样吗?一定。
举例:和查字典一样。要查找美女二字。
(1)hashcode:美
(2)equals:美景,美食,美女。。。很多词语
1、HashMap<String.String> map=new HashMap<>();底层的数组多大?本质上没有给底层的数组开辟空间
2、HashMap<String.String> map=new HashMap<>(25);底层数组多大?32。由源码分析可以知道,返回一个接近于给定容量的容量,并且是2次幂的,向上取整。即不管给的指定的容量是多少,都会返回一个接近当前数字的2次幂。
3、扩容需要注意什么?
4、讲一下你知道或者了解的HashMap的源码?
源码分析:
putVal源码
resize源码:
虽然哈希表一直在和冲突做斗争,但在实际使用过程中,我们认为哈希表的冲突率是不高的,冲突个数是可控的, 也就是每个桶中的链表的长度是一个常数,所以,通常意义下,我们认为哈希表的插入/删除/查找时间复杂度是 O(1) 。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。