当前位置：首页 > news >正文

Java开发必知必会的MySQL核心知识点(二)-索引探秘：让你的查询快如闪电

news 2026/7/25 15:18:33

上一篇我们搭好了 MySQL 的"骨架"——了解了 SQL 的执行流程和 InnoDB 存储引擎。你可能会想："知道这些有什么用呢？"
答案是——如果不知道索引的原理，你写的 SQL 就像在图书馆里一本本翻书找资料。而有了索引，就相当于有了图书管理员的检索系统，几十万本书里秒级定位（已经烂大街了的例子）。
这一篇，我们来掌握这个 Java 面试中出现频率超过 80%的核心话题。

先热个身：索引到底是什么？

抛开所有课本定义，我们从一个生活中的例子开始。

你想在新华字典里找到"张"字。正常人的做法是翻到拼音目录（z 开头），然后逐层缩小范围——这就是索引的作用。没有人会从第一页"阿"字开始逐个找。

MySQL 的索引就是同一回事：一种有序的数据结构，让数据库能以极少的磁盘 I/O 定位到你要的数据。

为什么磁盘 I/O 这么关键？因为内存读取（纳秒级）和磁盘读取（毫秒级）之间差了10 万倍。一次磁盘寻找的时间，CPU 可以执行数十万条指令。所以衡量数据库性能的核心指标不是"扫描了多少行"，而是"用了多少次磁盘 I/O"。

一、B+Tree：MySQL 索引的发动机

1.1 为什么 B+Tree 能成为首选？

数据库索引可以用哈希表、二叉树、B 树……MySQL（InnoDB）最终选择了B+Tree。这不是拍脑门的决定，而是对"大量数据、高并发、支持范围查询"三大需求反复权衡后的结果。

1.2 B+Tree 长什么样？

[8 | 15] <-- 非叶子节点（只存索引键，不存数据） / | \ [3|6] [10|12] [18|22] <-- 非叶子节点，进一步缩小范围 / | \ ... ... \ [1|2]↔[4|5]↔[6|7] ... <-- 叶子节点（存全部数据，双向链表连接）

看懂三句话：
上面的是"路牌"（非叶子节点），告诉你往哪走，本身不存数据。
最下面的是"目的地"（叶子节点），存储了所有记录。
所有目的地之间用双向箭头连起来（双向链表），方便前后遍历。

1.3 B+Tree 的四个核心优势（面试必考）

特性	说明	带来的好处
数据全在叶子节点	非叶子节点只存键值，不放数据	一个节点能装更多键，树更矮，磁盘 I/O 更少
叶子节点是双向链表	所有叶子节点首尾相连	范围查询（BETWEEN、>、<、ORDER BY）极快
树高极低	千万级数据表，树高通常只有 3-4 层	一次查询只需 3-4 次磁盘 I/O
查询稳定	每次都要走到叶子节点	O(log n) 复杂度，性能可预测

1.4 一次索引查询做了多少次 I/O？

以 2000 万行数据的表为例：

B+Tree 每个节点约 16KB（InnoDB 页大小） 如果主键是 BIGINT（8字节）+ 指针（6字节），每个节点可存约 1170 个键 层1（根节点）： 1 个节点，1170 个指针 层2： 1170 个节点，1170 × 1170 ≈ 137 万条键 层3（叶子）： 137 万 × 1170 ≈ 16 亿行 → 远超 2000 万 所以 2000 万数据，只需要 2-3 层！

一次主键查询：2-3 次磁盘 I/O 即可。这就是索引为什么能让大数据量表依然"秒级"响应的秘密。

B+Tree 的结构我们搞清楚了。但它具体怎么存储我们表中的数据呢？这就引出了两个核心概念：聚簇索引和二级索引。

二、聚簇索引与二级索引：数据到底存在哪？

2.1 聚簇索引（主键索引）

InnoDB 中，表数据按照主键顺序物理存储在 B+Tree 的叶子节点中。这意味着主键索引的叶子节点 =一整行数据。

聚簇索引（主键为 id）： [id=1, 张三, 25, 北京] ↔ [id=2, 李四, 30, 上海] ↔ [id=3, 王五, 28, 广州] ↑ 叶子节点直接存储了整行数据的所有列

这就解释了为什么自增主键很重要：如果主键是递增的，新数据直接追加到 B+Tree 的最后面，操作干净利落。如果是随机的 UUID，就要在树的中间插入——可能触发页分裂（一个数据页装不下了，被迫拆分成两页），性能大幅下降。

2.2 二级索引（辅助索引）

除了主键以外的索引，统统叫二级索引。它的叶子节点存的不是整行数据，而是主键值。

二级索引（name 列为索引）： [李四, id=2] ↔ [王五, id=3] ↔ [张三, id=1] ↑ 叶子节点只存 (索引键, 主键值)，不存其他列

2.3 "回表"是什么？为什么大家都想避免它？

假设你执行了：

SELECT * FROM user WHERE name = '张三';

执行过程如下：

第 1 步：在 name 索引树中查找"张三" → 得到主键 id=1 第 2 步：拿着 id=1 去主键索引树中查找 → 得到整行数据

第 2 步就是"回表"——多走了一次主键索引树的查找，意味着一倍的磁盘 I/O。

2.4 覆盖索引：一劳永逸

-- ❌ 需要回表：name 索引只有 name + id，age 和 city 要回表取 SELECT id, name, age, city FROM user WHERE name = '张三'; -- ✅ 覆盖索引：建一个包含所有需要列的联合索引 CREATE INDEX idx_name_age_city ON user(name, age, city); -- 现在这个查询需要的所有列都在索引里了，不需要回表 SELECT name, age, city FROM user WHERE name = '张三';

如何判断是否用了覆盖索引？执行EXPLAIN看 Extra 列——出现Using index就表示覆盖索引生效。这是你写 SQL 时应该追求的"绿色通行证"。

掌握了聚簇索引和回表的概念，接下来我们面对的是日常开发中最常用的索引类型——联合索引。它看似简单，却暗藏一个让无数新人踩坑的规则。

三、联合索引与最左前缀原则

3.1 什么是最左前缀原则？

联合索引按照创建时的列顺序进行排序。就像字典先按拼音首字母排、再按第二个字母排一样：

CREATE INDEX idx_a_b_c ON test(a, b, c); -- 排序逻辑：先按 a 排，a 相同再按 b 排，b 相同再按 c 排

最左前缀原则：查询条件必须从索引的最左边的列（a）开始，并且中间不能跳过，才能利用索引。

-- ✅ 走索引 SELECT * FROM test WHERE a = 1; -- 用到 a SELECT * FROM test WHERE a = 1 AND b = 2; -- 用到 a, b SELECT * FROM test WHERE a = 1 AND b = 2 AND c = 3; -- 用到 a, b, c SELECT * FROM test WHERE a = 1 AND c = 3; -- 用到 a（c 没用到，因为跳过了 b） -- ❌ 不走索引 SELECT * FROM test WHERE b = 2; -- 没有 a，无从查起 SELECT * FROM test WHERE b = 2 AND c = 3; -- 同上 SELECT * FROM test WHERE c = 3; -- 同上

一句话记住：没有最左边那一列，后面的列就像断了线的珠子——散了。

3.2 索引下推（MySQL 5.6+）

这是 MySQL 5.6 引入的一个"智能优化"，理解它有助于面试中展示深度：

-- 联合索引 idx_name_age(name, age) SELECT * FROM user WHERE name LIKE '张%' AND age = 25;

没有索引下推时：先找到所有name LIKE '张%'的主键 → 全部回表 → 再在 Server 层筛掉age != 25的行。
有索引下推时：找到name LIKE '张%'→直接在索引中判断 age=25→ 只对满足条件的行回表。

相当于把 WHERE 条件的过滤工作"下推"到了存储引擎层，减少了不必要的回表。

理论讲完了，现在进入实战——怎么判断你写的 SQL 走不走索引？遇到慢查询怎么定位问题？

四、EXPLAIN：SQL 优化的显微镜

EXPLAIN SELECT * FROM orders WHERE user_id = 100 ORDER BY create_time DESC;

EXPLAIN 是 MySQL 提供的最强大的 SQL 分析工具。我们重点看三个字段：

4.1 type：访问类型（最重要！）

从优到差排列：

system → 表只有一行（系统表） const → 主键或唯一索引等值查询，最多一行 ✅ 优秀 eq_ref → JOIN 时用主键或唯一索引关联 ✅ 优秀 ref → 普通索引等值查询 ✅ 良好 range → 索引范围扫描（>、<、BETWEEN、IN） ⚠️ 还行 index → 全索引扫描（扫描整个索引树） ❌ 较差 ALL → 全表扫描 ❌ 最差

实际开发标准：至少要达到range级别。如果你在 EXPLAIN 里看到type=ALL，就等于数据库在对你喊："我是在硬扫每一行啊大哥！"

4.2 Extra：额外信息

值	含义	级别
`Using index`	覆盖索引，不回表	🟢 最优
`Using where`	Server 层做过滤	🟡 正常
`Using index condition`	索引下推生效	🟢 好的
`Using filesort`	需要额外排序	🔴 需要优化
`Using temporary`	用了临时表	🔴 严重问题

4.3 key 和 rows

key：实际使用的索引名。如果是 NULL，说明索引没生效。
rows：MySQL 预估要扫描的行数。这个数字越小越好，是判断优化效果的直观指标。

五、SQL 优化实战

5.1 深分页：面试经典题

-- ❌ 深分页问题：扫描前 100010 行，再扔掉前 100000 行 SELECT * FROM orders ORDER BY id LIMIT 100000, 10;

原理很直观：MySQL 不知道第 100000 行在哪，只能从第 1 行开始数，数到第 100000 行再开始返回数据。

推荐方案——延迟关联：

-- ✅ 先在索引中定位主键，再用主键关联取全量数据 SELECT o.* FROM orders o INNER JOIN ( SELECT id FROM orders ORDER BY id LIMIT 100000, 10 ) t ON o.id = t.id;

子查询只需要扫描id索引（覆盖索引，不用回表），定位到 10 个主键后再关联获取完整数据。

5.2 JOIN 优化：小表驱动大表

-- ❌ 关联字段没索引 → 被驱动表每次都要全表扫描 SELECT * FROM user u JOIN orders o ON u.id = o.user_id WHERE u.name LIKE '%张%'; -- ✅ 优化方式 -- 1. orders.user_id 上建索引（被驱动表的关联列必须有索引） -- 2. user 表先执行 WHERE 过滤，用小结果集驱动大表 -- 3. 去掉前缀模糊 '%张' → '张%'，让 user.name 索引生效

核心原则：JOIN 时 MySQL 会自动选择小表作为驱动表，但被驱动表的 JOIN 列上必须有索引——否则每次关联都是一次全表扫描。

5.3 ORDER BY 优化：利用索引排序

-- ❌ Extra 出现 Using filesort（需要额外排序，消耗大） SELECT * FROM orders WHERE status = 1 ORDER BY create_time DESC; -- ✅ 建联合索引，让 WHERE 和 ORDER BY 共用一个索引 CREATE INDEX idx_status_ctime ON orders(status, create_time); SELECT * FROM orders WHERE status = 1 ORDER BY create_time DESC; -- 索引本身就是按 (status, create_time) 排序的，不需要额外排序

5.4 建立索引的"六要六不要"

六要：

WHERE、JOIN、ORDER BY 的列要建索引
区分度高的列要建索引（手机号、邮箱等）
优先建覆盖索引，减少回表
字符串字段考虑前缀索引idx(title(20))
联合索引把区分度高的列放左边
频繁查询的列优先考虑

六不要：

不在大字段上建索引（TEXT、BLOB）
不在低区分度列建索引（性别只有男女）
不在索引列上做函数/表达式运算
不使用%开头的模糊匹配
不建过多索引（单表不超过 5 个）
不忽略最左前缀原则

5.5 COUNT 优化

-- InnoDB 下，COUNT(*) 和 COUNT(1) 效率相同，优化器会改写 -- COUNT(col) 只统计 col 非 NULL 的行，可能比 COUNT(*) 慢 -- ✅ 需要粗略值时 SELECT TABLE_ROWS FROM information_schema.TABLES WHERE TABLE_SCHEMA = 'mydb' AND TABLE_NAME = 'orders'; -- ✅ 需要精确值时：用汇总表 + 定时任务维护