首页 > 其他 > 详细

HashMap源码分析

时间:2020-05-13 19:18:31      阅读:31      评论:0      收藏:0      [点我收藏+]

由于在项目中和算法题中经常使用到HashMap,在网上也看到很多人说HashMap在面试中经常被问到,所以想在这里详细阅读一下HashMap的源码。HashMap底层数据结构是由数组+链表(JDK1.8中加入了红黑树)构成的,在不发生哈希冲突的情况下,时间复杂度为O(1),但实际情况下大部分时候还是会发生哈希冲突。因为链表的时间复杂度为O(n),为了加快查找速度,在JDK1.8的时候链表长度超过8的时候链表会转为红黑树(时间复杂度O(log(n)))。下面是HashMap的结构图(JDK1.8)。

技术分享图片

HashMap中的成员变量

//数组默认初始长度为16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

//数组最大容量为2的30次幂
static final int MAXIMUM_CAPACITY = 1 << 30;

//默认加载因子0.75。当数组元素容量大于数组容量*加载因子时,数组扩容
static final float DEFAULT_LOAD_FACTOR = 0.75f;

//树的阈值,当链表长度超过这个值时,链表转为红黑树
static final int TREEIFY_THRESHOLD = 8;

//当树中的元素小于这个值时,树转为链表
static final int UNTREEIFY_THRESHOLD = 6;

//如果数组长度小于这个数,当链表长度大于8时,优先扩展数组,而不是链表转树
static final int MIN_TREEIFY_CAPACITY = 64;

//HashMap底层的Node数组
transient Node<K,V>[] table;

//key-value键值对的数量
transient int size;

//操作数,记录当前这个HashMap被操作了多少次,和fail-fast机制有关
transient int modCount;

//扩容后的阈值(阈值=数组容量*加载因子)
int threshold;

//加载因子
final float loadFactor;

如果我们预先知道大概存放的元素数量且此数量大于16时,我们设置容量之后会执行下面的代码,将数组容量设为大于当前值且最近的2的整数次幂的数 。

static final int tableSizeFor(int cap) {
	    /**
	     *让cap-1再赋值给n的目的是另找到的目标值大于或等于原值。例如二进制1000,十进制数值为8。如		    *果不对它减1而直接操作,将得到答案10000,即16。显然不是结果。减1后二进制为111,再进行操		   *作则会得到原来的数值1000,即8。
	     */
    
        int n = cap - 1;
    
        /**
    	 *>>>无符号右移
    	 *对n右移1位:001xx...xxx,再位或:011xx...xxx
		 *对n右移2为:00011...xxx,再位或:01111...xxx
		 *此时前面已经有四个1了,再右移4位且位或可得8个1
          *同理,有8个1,右移8位肯定会让后八位也为1。
          *综上可得,该算法让最高位的1后面的位全变为1。
          *最后再让结果n+1,即得到了2的整数次幂的值了。
    	 */
    
        n |= n >>> 1;    
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

上面说到HasHMap数组的初始容量为16,并且当设定容量超过16时,数组的初始容量也会被设置为大于当前值且最近的2的整数次幂的数。那么HashMap的初始数组容量为什么一定要是2的整数次幂呢?因为在通过哈希算法得出哈希值之后,还需要计算将键值对放入那个索引,源代码如下:

if ((p = tab[i = (n - 1) & hash]) == null)   //i是计算出来的索引值,n是数组长度,hash是哈希值
     tab[i] = newNode(hash, key, value, null);

HashMap的容量为16时,转化为二进制为10000,n-1得出01111。若hash值为1111,可以得出索引的位置为15。若hash值为1110,可得出索引位置为14。(原谅我是个灵魂画手)

技术分享图片

假设 HashMap的容量为15转化成二进制为1111,length-1得出的二进制为1110 。哈希值为1111和1110

技术分享图片

那么两个索引的位置都是14,就会造成分布不均匀了,增加了碰撞几率,减慢了查询速度,造成了空间浪费。因此HashMap的初始数组容量是2的整数次幂可以减少碰撞几率,加快查询速度。详细信息查看参考1。

链表和红黑树节点

//链表节点
static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;
        //省略
}

//红黑树节点,继承LinkedHashMap.Entry,后者又继承上面那个链表结点
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
        TreeNode<K,V> parent;  // red-black tree links
        TreeNode<K,V> left;
        TreeNode<K,V> right;
        TreeNode<K,V> prev;    // needed to unlink next upon deletion
        boolean red;
        TreeNode(int hash, K key, V val, Node<K,V> next) {
            super(hash, key, val, next);
        }
	   //省略  
}

如果自己设置初始化容量和负载因子会调用下面的构造方法

public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }

put操作

在看put操作之前我们先看一下hash操作,put中用到了hash操作。计算哈希值的过程中会发生哈希冲突,解决的办法有两个,拉链法和开放定址法。

static final int hash(Object key) {
        int h;
    	//这里用的是key的hash值与其自身高16为异或来减少hash冲突
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

put在HashMap中实际调用的是putVal,借鉴一张经典的图来理解源码

技术分享图片

//我们调用的是这个
public V put(K key, V value) {
    	//hash(key)计算key的hash值
        return putVal(hash(key), key, value, false, true);
    }
//putVal函数
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0) //判断表是否为空
            n = (tab = resize()).length;  
        if ((p = tab[i = (n - 1) & hash]) == null)    //判断索引位置是否为空
            tab[i] = newNode(hash, key, value, null);
        else {
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))  //判断key是否存在
                e = p;   //存在直接覆盖
            else if (p instanceof TreeNode)  //不存在则判断节点是否树节点
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {   //开始遍历列表
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);  //链表插入
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st  
                            treeifyBin(tab, hash);  //链表长度大于阈值转红黑树,binCount和阈												 //值-1判断是因为binCount从0开始
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;  
                    p = e;   //如果key存在则直接覆盖value
                }
            }
            if (e != null) { // existing mapping for key 如果e不为空,就说明存在旧值
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;  //返回旧值
            }
        }
        ++modCount;
        if (++size > threshold)  //插入之后判断容量是否扩容
            resize();
        afterNodeInsertion(evict);
        return null;
    }

JDK1.8相比JDK1.7 put操作发生了一些变化。一个是链表插入元素的时候又头插法变为尾插法,因为尾插法在高并发情况下会造成数据丢失和死循环。另一个是当链表长度超过8时链表变红黑树(当数组长度小于等于64时,如果链表长度超过8,优先扩展数组而不是链表变红黑树),链表转红黑树是为了加快查找速度。

resize操作

    final Node<K,V>[] resize() {
        Node<K,V>[] oldTab = table;
        int oldCap = (oldTab == null) ? 0 : oldTab.length;  //若原数组不为空获取其数组容量
        int oldThr = threshold;
        int newCap, newThr = 0;
        //判断旧的数组长度,如果大于0说明不是初始化而是正常的扩容
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) { //如果旧table的长度是上限的话就把容量也扩到上限
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)//如果扩容二倍小于最大容量大于初始容量
                newThr = oldThr << 1; // double threshold  则扩容到双倍的容量
        }
        
        //这一步是在初始化的时候设置数组的初始化长度
        //当前表是空的(oldTab == null || oldCap==0),但是有阈值,代表该表已经初始化
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        //代表还没初始化(oldCap==0 && oldThr==0)
        else {               // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        //对应当前表是空的(oldTab == null || oldCap==0),但是有阈值,代表该表已经初始化的情况
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        
        
        //更新阈值
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
 	    //如果是初始化,那么oldTab就是null,就直接返回newTab
        //转移数据
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {  //遍历数组
                Node<K,V> e;
                if ((e = oldTab[j]) != null) {  //获取数组某个索引位置的元素
                    oldTab[j] = null;
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e; //只有一个元素直接插入
                    else if (e instanceof TreeNode)
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap); //转移树节点
                    else { // preserve order 保留链表顺序
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {       //维护两个链表,一个不移动,一个移动oldCap()
                            next = e.next;
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

JDK1.8不重新计算哈希值,根据新增位置在哈希值中的值为0还是1做出判断((e.hash & oldCap) == 0),为0不移动。为1索引加上新增数组长度作为原来元素的索引,也就是向后移动新增数组长度。

上面我只对HashMap比较重要的一部分源码进行了分析,自己总结一遍也能有更深刻的理解。如果有不合理的地方欢迎留言指出。

参考

1.为什么hashMap的容量扩容时一定是2的幂次

2.Java8 HashMap之tableSizeFor

3.HashMap源码解析

4.HashMap源码学习

5.Java &、&&、|、||、^、<<、>>、~、>>>等运算符

6.解决hash冲突的三个方法

HashMap源码分析

原文:https://www.cnblogs.com/smilesboy/p/12883887.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!