当前位置：首页 > news >正文

数据库进阶天花板：从 JOIN 原理到执行计划，搞定 99% 的慢查询与面试

news 2026/7/1 21:22:20

一、JOIN 查询：从会用到用对，再到用快

JOIN 是数据库最核心的操作，但 90% 的人都只知道用法，不懂底层原理，这也是慢查询的重灾区。

1.1 JOIN 的三种底层算法（MySQL 8.0+）

MySQL 执行 JOIN 查询时，会根据表的数据量和索引情况，自动选择以下三种算法之一：

表格

算法	适用场景	原理	时间复杂度
嵌套循环连接 (NLJ)	小表驱动大表，关联字段有索引	遍历小表每一行，去大表索引中查找匹配行	O(N×logM)
块嵌套循环连接 (BNL)	关联字段无索引	把小表加载到内存块，批量和大表对比	O(N×M)
哈希连接 (Hash Join)	大表关联大表，无索引	构建小表哈希表，大表遍历匹配哈希表	O(N+M)

核心结论：永远让小表驱动大表，关联字段必须建索引，避免触发 BNL 算法（全表扫描）。

1.2 LEFT JOIN 的三大致命坑（90% 的人都踩过）

坑 1：用 WHERE 过滤右表，导致左连接失效

sql

-- 错误写法：WHERE过滤右表会把NULL值过滤掉，变成INNER JOIN SELECT u.name, o.order_no FROM `user` u LEFT JOIN `order` o ON u.id = o.user_id WHERE o.status = 1; -- 正确写法：过滤条件写在ON后面 SELECT u.name, o.order_no FROM `user` u LEFT JOIN `order` o ON u.id = o.user_id AND o.status = 1;

坑 2：COUNT (右表字段) 统计错误

sql

-- 错误：COUNT(o.id)会忽略NULL值，导致没下单的用户统计为0 SELECT u.name, COUNT(o.id) AS order_count FROM `user` u LEFT JOIN `order` o ON u.id = o.user_id GROUP BY u.id; -- 正确：用COUNT(*)统计所有行 SELECT u.name, COUNT(*) AS order_count FROM `user` u LEFT JOIN `order` o ON u.id = o.user_id GROUP BY u.id;

坑 3：多表 JOIN 时关联顺序错误

sql

-- 错误：大表驱动小表，性能极差 SELECT * FROM `order` o -- 100万行 LEFT JOIN `user` u ON o.user_id = u.id -- 10万行 WHERE o.create_time > '2026-01-01'; -- 正确：小表驱动大表 SELECT * FROM `user` u -- 10万行 LEFT JOIN `order` o ON u.id = o.user_id WHERE o.create_time > '2026-01-01';

1.3 自连接的高级用法：不止是查上下级

自连接除了处理层级关系，还能解决很多复杂问题：

sql

-- 案例1：查找连续3天登录的用户 SELECT DISTINCT a.user_id FROM login a JOIN login b ON a.user_id = b.user_id AND DATEDIFF(b.login_time, a.login_time) = 1 JOIN login c ON a.user_id = c.user_id AND DATEDIFF(c.login_time, a.login_time) = 2; -- 案例2：查找同部门工资高于平均工资的员工 SELECT e.name, e.salary, d.avg_salary FROM emp e JOIN (SELECT dept_id, AVG(salary) AS avg_salary FROM emp GROUP BY dept_id) d ON e.dept_id = d.dept_id WHERE e.salary > d.avg_salary;

二、分组聚合：从统计到精准分析

GROUP BY 是数据统计的核心，但很多人只知道简单分组，不知道如何处理复杂统计和性能问题。

2.1 GROUP BY 的底层执行流程

MySQL 执行 GROUP BY 的步骤：

按照 GROUP BY 字段对数据进行排序（如果没有索引，会创建临时表排序）
对排序后的数据进行分组
对每个分组执行聚合函数（COUNT、SUM、AVG 等）
如果有 HAVING，过滤分组结果

性能杀手：无索引时的临时表和文件排序（Using temporary + Using filesort）

2.2 多字段分组与聚合函数进阶

sql

-- 多字段分组：按部门+性别统计人数和平均工资 SELECT dept_id, gender, COUNT(*) AS total, AVG(salary) AS avg_salary, MAX(salary) AS max_salary FROM emp GROUP BY dept_id, gender WITH ROLLUP; -- 新增：自动生成汇总行（MySQL特有） -- 条件聚合：一条SQL统计多个指标 SELECT dept_id, COUNT(*) AS total_emp, SUM(CASE WHEN gender = '男' THEN 1 ELSE 0 END) AS male_count, SUM(CASE WHEN salary > 10000 THEN 1 ELSE 0 END) AS high_salary_count FROM emp GROUP BY dept_id;

2.3 GROUP BY 性能优化三大技巧

给 GROUP BY 字段建联合索引：避免临时表和文件排序
sql
```
CREATE INDEX idx_dept_gender ON emp(dept_id, gender);
```
尽量用 WHERE 过滤，不要用 HAVING：减少分组的数据量
避免 SELECT 非分组非聚合字段：MySQL 5.7 + 默认开启 ONLY_FULL_GROUP_BY 模式，会直接报错

三、子查询与窗口函数：解决复杂业务的利器

3.1 子查询的三种类型与优化

1. 标量子查询（返回单个值）

sql

-- 查询工资高于公司平均工资的员工 SELECT name, salary FROM emp WHERE salary > (SELECT AVG(salary) FROM emp);

优化：标量子查询会执行多次，尽量改成 JOIN

2. 关联子查询（依赖外部查询）

sql

-- 错误写法：关联子查询会逐行执行，性能极差 SELECT name FROM emp e WHERE EXISTS ( SELECT 1 FROM dept d WHERE d.id = e.dept_id AND d.name = '技术部' ); -- 正确写法：改成INNER JOIN SELECT e.name FROM emp e JOIN dept d ON e.dept_id = d.id WHERE d.name = '技术部';

3. 派生表（FROM 子句中的子查询）

sql

-- 派生表会被物化，适合复杂统计 SELECT dept_id, AVG(salary) AS avg_salary FROM ( SELECT dept_id, salary FROM emp WHERE salary > 5000 ) AS t GROUP BY dept_id;

3.2 窗口函数：SQL 进阶的分水岭

窗口函数是 MySQL 8.0 引入的杀手级功能，能解决很多之前需要复杂子查询才能解决的问题。

常用窗口函数分类

表格

分类	函数	作用
排名函数	ROW_NUMBER()、RANK()、DENSE_RANK()	生成排名
聚合函数	SUM()、AVG()、COUNT()	窗口内聚合
偏移函数	LAG()、LEAD()	获取前后行数据

经典实战案例

sql

-- 案例1：查询每个部门工资前3的员工 SELECT * FROM ( SELECT name, dept_id, salary, ROW_NUMBER() OVER (PARTITION BY dept_id ORDER BY salary DESC) AS rn FROM emp ) AS t WHERE rn <= 3; -- 案例2：计算每个用户的连续登录天数 SELECT user_id, MAX(continuous_days) AS max_continuous_days FROM ( SELECT user_id, DATE_SUB(login_time, INTERVAL rn DAY) AS group_date, COUNT(*) AS continuous_days FROM ( SELECT user_id, login_time, ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_time) AS rn FROM login ) AS t1 GROUP BY user_id, group_date ) AS t2 GROUP BY user_id;

四、执行计划 EXPLAIN：慢查询的照妖镜

不会看执行计划，永远成不了数据库高手。EXPLAIN 可以帮你分析 SQL 的执行流程，找到性能瓶颈。

4.1 EXPLAIN 核心字段解读

表格

字段	重要性	含义	关注重点
type	⭐⭐⭐⭐⭐	访问类型	从好到坏：system > const > eq_ref > ref > range > index > ALL
key	⭐⭐⭐⭐⭐	实际使用的索引	为 NULL 表示没用到索引
rows	⭐⭐⭐⭐	预估扫描行数	越少越好
Extra	⭐⭐⭐⭐	额外信息	警惕：Using temporary、Using filesort、Using join buffer

4.2 典型慢查询分析与优化

sql

-- 慢查询SQL：查询2026年1月的订单及用户信息 EXPLAIN SELECT o.order_no, u.name, o.amount FROM `order` o LEFT JOIN `user` u ON o.user_id = u.id WHERE o.create_time BETWEEN '2026-01-01' AND '2026-01-31'; -- 执行计划结果： -- type: ALL（全表扫描order表） -- key: NULL -- rows: 1000000 -- Extra: Using where -- 优化方案：给create_time和user_id建索引 CREATE INDEX idx_order_create_time ON `order`(create_time); CREATE INDEX idx_order_user_id ON `order`(user_id); -- 优化后执行计划： -- type: range（范围扫描） -- key: idx_order_create_time -- rows: 10000（只扫描1万行） -- Extra: Using index condition

五、工业级 SQL 开发规范

** 禁止使用 SELECT ***：只查询需要的字段，减少数据传输和内存占用
关联字段必须建索引：所有 JOIN 的 ON 字段、WHERE 条件字段、GROUP BY 字段都要建索引
避免大事务：事务执行时间过长会导致锁等待和主从延迟
批量操作代替循环操作：一次插入 1000 条比循环插入 1000 次快 100 倍

禁止在 WHERE 条件中对字段进行函数操作：会导致索引失效

sql

-- 错误：索引失效 SELECT * FROM `order` WHERE DATE(create_time) = '2026-01-01'; -- 正确：索引生效 SELECT * FROM `order` WHERE create_time BETWEEN '2026-01-01 00:00:00' AND '2026-01-01 23:59:59';

六、中高级数据库面试必考题（含标准答案）

MySQL 的 JOIN 有哪几种？底层算法是什么？答：INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL JOIN。底层算法有嵌套循环连接、块嵌套循环连接、哈希连接。
为什么要让小表驱动大表？答：嵌套循环连接中，小表作为外层表，循环次数少，性能更高。
GROUP BY 和 DISTINCT 哪个效率高？答：在有索引的情况下，两者效率差不多；无索引时，GROUP BY 效率更高，因为它会排序后去重。
窗口函数和普通聚合函数的区别？答：普通聚合函数会把多行变成一行，窗口函数不会改变行数，会在每行后面添加聚合结果。
如何优化慢查询？答：① 用 EXPLAIN 分析执行计划；② 给查询字段建索引；③ 避免全表扫描；④ 优化 JOIN 顺序；⑤ 减少子查询，改成 JOIN。