当前位置:   article > 正文

HashMap的底层原理与实现_c++ hashmap底层实现原理

c++ hashmap底层实现原理

        HashMap是InterfaceMap的实现类,HashMap底层采用了哈希表,它是一种十分重要的数据结构。对于以后学习很多其他的新知识都十分有帮助。

        数据结构中使用数组和链表对数据进行存储,他们各有特点:

        数组:索引效率高,但插入,删除元素效率低。

        链表:插入,删除元素效率高,但是索引效率低。

        而哈希表结合了数组与链表的优点,具有索引效率高,插入,删除元素也十分方便的特点。他的本质就是“数组加链表”。

一.HashMap基本结构讲解

       我们先来看一下HashMap的底层核心源码:

       

     其中的Entry[] table 就是HashMap的核心数组结构,我们也称之为“位桶数组”。我们再继续看Entry是什么,源码如下:

 

 

 

 

      一个Entry对象存储了:

      1. key:键对象 value:值对象

      2. next:下一个节点

      3. hash: 键对象的hash值

      显然每一个Entry对象就是一个单向链表结构,我们使用图形表示一个Entry对象的典型示意:

 

      然后,我们画出Entry[]数组的结构(这也是HashMap的结构):

 

二.存储数据过程put(key,value)

      明白了HashMap的基本结构后,我们继续深入学习HashMap如何存储数据。此处的核心是如何产生hash值,该值用来对应数组的存储位置。

 

      我们的目的是将”key-value两个对象”成对存放到HashMap的Entry[]数组中。参见以下步骤:

      (1) 获得key对象的hashcode(key相同,hashcode码便相同,这为后面元素的索引和覆盖做了基础)

           首先调用key对象的hashcode()方法,获得hashcode。

      (2) 根据hashcode计算出hash值(要求在[0, 数组长度-1]区间)

           hashcode是一个整数,我们需要将它转化成[0, 数组长度-1]的范围。我们要求转化后的hash值尽量均匀地分布在[0,数组长度-1]这个区间,减少“hash冲突”

           i. 一种极端简单和低下的算法是:

           hash值 = hashcode/hashcode;

           也就是说,hash值总是1。意味着,键值对对象都会存储到数组索引1位置,这样就形成一个非常长的链表。相当于每存储一个对象都会发生“hash冲突”,HashMap也退化成了一个“链表”。

           ii. 一种简单和常用的算法是(相除取余算法):

           hash值 = hashcode%数组长度

           这种算法可以让hash值均匀的分布在[0,数组长度-1]的区间。 早期的HashTable就是采用这种算法。但是,这种算法由于使用了“除法”,效率低下。JDK后来改进了算法。首先约定数组长度必须为2的整数幂,这样采用位运算即可实现取余的效果:hash值 = hashcode&(数组长度-1)。

           iii. 如下为我们自己测试简单的hash算法:

【示例】测试hash算法

  1. public class Test {
  2.     public static void main(String[] args) {
  3.         int h = 25860399;
  4.         int length = 16;//length为2的整数次幂,则h&(length-1)相当于对length取模
  5.         myHash(h, length);
  6.     }
  7.     /**
  8.      * @param h  任意整数
  9.      * @param length 长度必须为2的整数幂
  10.      * @return
  11.      */
  12.     public static  int myHash(int h,int length){
  13.         System.out.println(h&(length-1));
  14.         //length为2的整数幂情况下,和取余的值一样
  15.         System.out.println(h%length);//取余数
  16.         return h&(length-1);
  17.     }
  18. }

 

 

      运行如上程序,我们就能发现直接取余(h%length)和位运算(h&(length-1))结果是一致的。事实上,为了获得更好的散列效果,JDK对hashcode进行了两次散列处理(核心目标就是为了分布更散更均匀),源码如下:

 

 

      (3) 生成Entry对象

          如上所述,一个Entry对象包含4部分:key对象、value对象、hash值、指向下一个Entry对象的引用。我们现在算出了hash值。下一个Entry对象的引用为null。

      (4) 将Entry对象放到table数组中

          如果本Entry对象对应的数组索引位置还没有放Entry对象,则直接将Entry对象存储进数组;如果对应索引位置已经有Entry对象,则将已有Entry对象的next指向本Entry对象,形成链表。

总结如上过程:

      当添加一个元素(key-value)时,首先计算key的hash值,以此确定插入数组中的位置,但是可能存在同一hash值的元素已经被放在数组同一位置了,这时就添加到同一hash值的元素的后面,他们在数组的同一位置,就形成了链表,同一个链表上的Hash值是相同的,所以说数组存放的是链表。 JDK8中,当链表长度大于8时,链表就转换为红黑树,这样又大大提高了查找的效率。

三.取数据过程get(key)

      我们需要通过key对象获得“键值对”对象,进而返回value对象。明白了存储数据过程,取数据就比较简单了,参见以下步骤:

      (1) 获得key的hashcode,通过hash()散列算法得到hash值,进而定位到数组的位置。

      (2) 在链表上挨个比较key对象。 调用equals()方法,将key对象和链表上所有节点的key对象进行比较,直到碰到返回true的节点对象为止。

      (3) 返回equals()为true的节点对象的value对象。

      明白了存取数据的过程,我们再来看一下hashcode()和equals方法的关系:

      Java中规定,两个内容相同(equals()为true)的对象必须具有相等的hashCode。因为如果equals()为true而两个对象的hashcode不同;那在整个存储过程中就发生了悖论。

▪ 扩容问题

      HashMap的位桶数组,初始大小为16。实际使用时,显然大小是可变的。如果位桶数组中的元素达到(0.75*数组 length), 就重新调整数组大小变为原来2倍大小。

      扩容很耗时。扩容的本质是定义新的更大的数组,并将旧数组内容挨个拷贝到新数组中。

▪ JDK8将链表在大于8情况下变为红黑二叉树

      JDK8中,HashMap在存储一个元素时,当对应链表长度大于8时,链表就转换为红黑树,这样又大大提高了查找的效率。

欢迎批评指正

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/209343?site
推荐阅读
相关标签
  

闽ICP备14008679号