由于在项目中和算法题中经常使用到HashMap,在网上也看到很多人说HashMap在面试中经常被问到,所以想在这里详细阅读一下HashMap的源码。HashMap底层数据结构是由数组+链表(JDK1.8中加入了红黑树)构成的,在不发生哈希冲突的情况下,时间复杂度为O(1),但实际情况下大部分时候还是会发生哈希冲突。因为链表的时间复杂度为O(n),为了加快查找速度,在JDK1.8的时候链表长度超过8的时候链表会转为红黑树(时间复杂度O(log(n)))。下面是HashMap的结构图(JDK1.8)。
//数组默认初始长度为16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
//数组最大容量为2的30次幂
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认加载因子0.75。当数组元素容量大于数组容量*加载因子时,数组扩容
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//树的阈值,当链表长度超过这个值时,链表转为红黑树
static final int TREEIFY_THRESHOLD = 8;
//当树中的元素小于这个值时,树转为链表
static final int UNTREEIFY_THRESHOLD = 6;
//如果数组长度小于这个数,当链表长度大于8时,优先扩展数组,而不是链表转树
static final int MIN_TREEIFY_CAPACITY = 64;
//HashMap底层的Node数组
transient Node<K,V>[] table;
//key-value键值对的数量
transient int size;
//操作数,记录当前这个HashMap被操作了多少次,和fail-fast机制有关
transient int modCount;
//扩容后的阈值(阈值=数组容量*加载因子)
int threshold;
//加载因子
final float loadFactor;
如果我们预先知道大概存放的元素数量且此数量大于16时,我们设置容量之后会执行下面的代码,将数组容量设为大于当前值且最近的2的整数次幂的数 。
static final int tableSizeFor(int cap) {
/**
*让cap-1再赋值给n的目的是另找到的目标值大于或等于原值。例如二进制1000,十进制数值为8。如 *果不对它减1而直接操作,将得到答案10000,即16。显然不是结果。减1后二进制为111,再进行操 *作则会得到原来的数值1000,即8。
*/
int n = cap - 1;
/**
*>>>无符号右移
*对n右移1位:001xx...xxx,再位或:011xx...xxx
*对n右移2为:00011...xxx,再位或:01111...xxx
*此时前面已经有四个1了,再右移4位且位或可得8个1
*同理,有8个1,右移8位肯定会让后八位也为1。
*综上可得,该算法让最高位的1后面的位全变为1。
*最后再让结果n+1,即得到了2的整数次幂的值了。
*/
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
上面说到HasHMap数组的初始容量为16,并且当设定容量超过16时,数组的初始容量也会被设置为大于当前值且最近的2的整数次幂的数。那么HashMap的初始数组容量为什么一定要是2的整数次幂呢?因为在通过哈希算法得出哈希值之后,还需要计算将键值对放入那个索引,源代码如下:
if ((p = tab[i = (n - 1) & hash]) == null) //i是计算出来的索引值,n是数组长度,hash是哈希值
tab[i] = newNode(hash, key, value, null);
HashMap的容量为16时,转化为二进制为10000,n-1得出01111。若hash值为1111,可以得出索引的位置为15。若hash值为1110,可得出索引位置为14。(原谅我是个灵魂画手)
假设 HashMap的容量为15转化成二进制为1111,length-1得出的二进制为1110 。哈希值为1111和1110
那么两个索引的位置都是14,就会造成分布不均匀了,增加了碰撞几率,减慢了查询速度,造成了空间浪费。因此HashMap的初始数组容量是2的整数次幂可以减少碰撞几率,加快查询速度。详细信息查看参考1。
链表和红黑树节点
//链表节点
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Node<K,V> next;
//省略
}
//红黑树节点,继承LinkedHashMap.Entry,后者又继承上面那个链表结点
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
TreeNode<K,V> parent; // red-black tree links
TreeNode<K,V> left;
TreeNode<K,V> right;
TreeNode<K,V> prev; // needed to unlink next upon deletion
boolean red;
TreeNode(int hash, K key, V val, Node<K,V> next) {
super(hash, key, val, next);
}
//省略
}
如果自己设置初始化容量和负载因子会调用下面的构造方法
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
在看put操作之前我们先看一下hash操作,put中用到了hash操作。计算哈希值的过程中会发生哈希冲突,解决的办法有两个,拉链法和开放定址法。
static final int hash(Object key) {
int h;
//这里用的是key的hash值与其自身高16为异或来减少hash冲突
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
put在HashMap中实际调用的是putVal,借鉴一张经典的图来理解源码
//我们调用的是这个
public V put(K key, V value) {
//hash(key)计算key的hash值
return putVal(hash(key), key, value, false, true);
}
//putVal函数
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0) //判断表是否为空
n = (tab = resize()).length;
if ((p = tab[i = (n - 1) & hash]) == null) //判断索引位置是否为空
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k)))) //判断key是否存在
e = p; //存在直接覆盖
else if (p instanceof TreeNode) //不存在则判断节点是否树节点
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) { //开始遍历列表
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null); //链表插入
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash); //链表长度大于阈值转红黑树,binCount和阈 //值-1判断是因为binCount从0开始
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e; //如果key存在则直接覆盖value
}
}
if (e != null) { // existing mapping for key 如果e不为空,就说明存在旧值
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue; //返回旧值
}
}
++modCount;
if (++size > threshold) //插入之后判断容量是否扩容
resize();
afterNodeInsertion(evict);
return null;
}
JDK1.8相比JDK1.7 put操作发生了一些变化。一个是链表插入元素的时候又头插法变为尾插法,因为尾插法在高并发情况下会造成数据丢失和死循环。另一个是当链表长度超过8时链表变红黑树(当数组长度小于等于64时,如果链表长度超过8,优先扩展数组而不是链表变红黑树),链表转红黑树是为了加快查找速度。
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length; //若原数组不为空获取其数组容量
int oldThr = threshold;
int newCap, newThr = 0;
//判断旧的数组长度,如果大于0说明不是初始化而是正常的扩容
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) { //如果旧table的长度是上限的话就把容量也扩到上限
threshold = Integer.MAX_VALUE;
return oldTab;
}
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)//如果扩容二倍小于最大容量大于初始容量
newThr = oldThr << 1; // double threshold 则扩容到双倍的容量
}
//这一步是在初始化的时候设置数组的初始化长度
//当前表是空的(oldTab == null || oldCap==0),但是有阈值,代表该表已经初始化
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
//代表还没初始化(oldCap==0 && oldThr==0)
else { // zero initial threshold signifies using defaults
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
//对应当前表是空的(oldTab == null || oldCap==0),但是有阈值,代表该表已经初始化的情况
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
//更新阈值
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
//如果是初始化,那么oldTab就是null,就直接返回newTab
//转移数据
if (oldTab != null) {
for (int j = 0; j < oldCap; ++j) { //遍历数组
Node<K,V> e;
if ((e = oldTab[j]) != null) { //获取数组某个索引位置的元素
oldTab[j] = null;
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e; //只有一个元素直接插入
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap); //转移树节点
else { // preserve order 保留链表顺序
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do { //维护两个链表,一个不移动,一个移动oldCap()
next = e.next;
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
JDK1.8不重新计算哈希值,根据新增位置在哈希值中的值为0还是1做出判断((e.hash & oldCap) == 0),为0不移动。为1索引加上新增数组长度作为原来元素的索引,也就是向后移动新增数组长度。
上面我只对HashMap比较重要的一部分源码进行了分析,自己总结一遍也能有更深刻的理解。如果有不合理的地方欢迎留言指出。
参考
5.Java &、&&、|、||、^、<<、>>、~、>>>等运算符
原文:https://www.cnblogs.com/smilesboy/p/12883887.html