当前位置：首页 > news >正文

深入解析JDK1.8 HashMap优化之道

news 2026/7/17 18:14:41

好的，我们来深入分析HashMap的核心机制，重点关注从 JDK 1.7 到 1.8 的重大改进，特别是解决死循环问题和引入高低位映射优化。

1. JDK 1.7`HashMap`的结构与潜在问题

在 JDK 1.7 中，HashMap采用数组 + 链表的结构：

数组 (table): 存储链表的头节点。
链表 (Entry): 解决哈希冲突，相同哈希值的元素存储在同一个链表中，采用头插法（新元素插入链表头部）。

// JDK 1.7 简化版 Entry 结构 static class Entry<K, V> implements Map.Entry<K, V> { final K key; V value; Entry<K, V> next; // 指向下一个节点的指针 int hash; // ... 构造方法等 }

1.1 并发扩容导致的死循环问题

当HashMap需要扩容（通常是当size > threshold = capacity * loadFactor）时，会执行resize()操作：

创建新数组: 容量翻倍。
迁移元素: 遍历旧数组的每个桶（链表），重新计算每个元素在新数组中的位置index = (newCapacity - 1) & hash。
迁移方式: 使用头插法将元素插入新数组的对应链表中。

问题根源 - 头插法与并发：

在并发环境下，多个线程可能同时触发resize()。
头插法会导致链表元素的迁移顺序发生反转（旧链表 A->B->C，迁移后在新链表变成 C->B->A）。
如果两个线程同时迁移同一个链表，由于线程执行顺序的不确定性，可能导致链表形成环形结构。

// 简化版 JDK 1.7 resize 中的迁移逻辑 (易产生死循环) void transfer(Entry[] newTable) { for (Entry<K, V> e : oldTable) { while (null != e) { Entry<K, V> next = e.next; // 线程1执行到这里暂停 e.next = newTable[e.hash & (newCapacity - 1)]; // 头插法 newTable[e.hash & (newCapacity - 1)] = e; e = next; } } }

线程1执行Entry<K, V> next = e.next;后暂停。假设此时e指向节点 A，next指向节点 B。
线程2完成了整个链表的迁移，假设迁移后链表是 B->A（头插法导致顺序反转）。
线程1恢复执行：
- e.next = newTable[index];：将 A 的next指向新数组index位置的节点（此时是 B，因为线程2迁移后 B 是头节点）。
- newTable[index] = e;：将 A 设置为新数组index位置的头节点。现在链表是 A->B。
- e = next;：e指向 B。
- 下一轮循环：next = e.next = B.next。在线程2迁移后的链表中，B 的next指向 A！所以next指向 A。
- e.next = newTable[index];：将 B 的next指向新数组index位置的头节点（此时是 A）。现在链表变成 B->A->B，环形链表形成！
后续调用get()访问这个桶时，遍历链表会陷入死循环。

2. JDK 1.8`HashMap`的重大优化

JDK 1.8 对HashMap进行了显著重构：

数据结构:数组 + 链表 / 红黑树。当链表长度超过阈值（默认为 8）且桶数组长度达到一定大小（默认为 64）时，链表转换为红黑树，以提高查询效率（$$O(n) \to O(\log n)$$）。
迁移方式: 改用尾插法（新元素插入链表尾部），保持元素顺序不变，从根本上解决了并发扩容死循环问题（但HashMap本身仍非线程安全）。
高低位映射优化: 这是扩容迁移过程中的关键性能优化。

2.1 高低位映射优化详解

在 JDK 1.8 的resize()方法中，迁移元素时不再简单地重新计算每个元素的哈希值(newCapacity - 1) & hash，而是利用了一个巧妙的性质：元素在新数组中的位置只可能是原位置i或者i + oldCapacity。

数学原理：

设旧容量为oldCap，新容量newCap = 2 * oldCap（HashMap容量总是 2 的幂）。
计算桶索引的公式是index = (capacity - 1) & hash。
由于capacity是 2 的幂，capacity - 1的二进制形式是低位全 1，高位全 0（例如oldCap = 16 (10000)，oldCap - 1 = 15 (01111)）。
新容量newCap - 1的二进制是比oldCap - 1多一个高位 1（例如newCap = 32 (100000)，newCap - 1 = 31 (011111)）。
计算元素在新数组中的位置： $$index_{new} = (newCap - 1) & hash = (2 \times oldCap - 1) & hash$$
比较元素在旧数组中的位置： $$index_{old} = (oldCap - 1) & hash$$
关键在于hash值在第log2(oldCap)位（即oldCap对应的那个二进制位）的值：
- 如果该位是0：则(newCap - 1) & hash和(oldCap - 1) & hash的结果完全相同（因为新增的高位在&操作中是 0，不影响低位结果）。所以元素应留在原位index_{old}。
- 如果该位是1：则(newCap - 1) & hash的结果等于(oldCap - 1) & hash + oldCap（因为新增的高位是 1，&后相当于在index_{old}基础上加了一个oldCap）。所以元素应迁移到新位置index_{old} + oldCap。

优化实现： JDK 1.8 在迁移时，直接将一个旧桶 (oldTab[j]) 拆分成两个新链表：

低位链表 (loHead,loTail): 存放哈希值满足(hash & oldCap) == 0的元素（第log2(oldCap)位为 0），它们将留在新数组的j位置。
高位链表 (hiHead,hiTail): 存放哈希值满足(hash & oldCap) != 0的元素（第log2(oldCap)位为 1），它们将迁移到新数组的j + oldCap位置。

// JDK 1.8 resize() 中迁移逻辑的简化 (包含高低位优化) Node<K, V>[] newTab = (Node<K, V>[]) new Node[newCap]; // ... 其他初始化 for (int j = 0; j < oldCap; ++j) { Node<K, V> e; if ((e = oldTab[j]) != null) { Node<K, V> loHead = null, loTail = null; // 低位链表头尾 Node<K, V> hiHead = null, hiTail = null; // 高位链表头尾 do { Node<K, V> next = e.next; if ((e.hash & oldCap) == 0) { // 判断关键位是否为0 if (loTail == null) loHead = e; else loTail.next = e; loTail = e; } else { // 关键位为1 if (hiTail == null) hiHead = e; else hiTail.next = e; hiTail = e; } } while ((e = next) != null); // 将两个链表放入新数组对应位置 if (loTail != null) { loTail.next = null; newTab[j] = loHead; // 低位链表留在原位 j } if (hiTail != null) { hiTail.next = null; newTab[j + oldCap] = hiHead; // 高位链表移到 j + oldCap } } }

优势:

避免重新计算哈希: 只需进行一次位运算(e.hash & oldCap)判断关键位，即可确定元素的新位置，效率远高于重新计算(newCap - 1) & hash。
链表拆分高效: 遍历一次旧链表，同时构建两个新链表（低位和高位），迁移操作非常高效。
保持元素顺序: 使用尾插法构建新链表，保持了元素的相对顺序（对后续转换为红黑树也有利）。

3. 总结对比 (JDK 1.7 vs JDK 1.8)

特性	JDK 1.7	JDK 1.8	改进点
数据结构	数组 + 链表	数组 + 链表 / 红黑树	查询效率提升 (长链表 $$O(n) \to O(\log n)$$)
冲突解决插入法	头插法	尾插法	解决并发扩容死循环，保持顺序
扩容迁移方式	遍历链表，每个元素重新计算位置	高低位映射优化，链表拆分成低位和高位	避免重算哈希，迁移效率显著提升
线程安全	非线程安全 (死循环问题)	非线程安全 (但无死循环)	更健壮，但仍需`ConcurrentHashMap`保证安全