当前位置: 首页 > news >正文

SQL Server 性能优化实战(第一期):索引——查询加速的基石

SQL Server 性能优化实战(第一期):索引——查询加速的基石

SQL Server 性能优化实战(第一期):索引——查询加速的基石

无论你是开发人员还是 DBA,面对 SQL Server 的性能问题时,第一个想到的优化手段往往是“加索引”。但你真的理解索引的工作原理吗?为什么加了索引查询还是慢?为什么索引反而拖慢了写入?这一期,我们从最基础也最重要的索引开始,建立正确的认知框架。

一、为什么需要索引?

想象一下:你有一本 1000 页的书,没有目录,也没有页码。你想找到“索引优化”这一节,唯一的办法就是从第 1 页开始,一页一页翻下去——直到翻到第 800 页才找到目标。

这就是全表扫描

SQL Server 中的索引,本质上就是书的目录。它是一种 B-Tree(平衡树) 结构,能够以对数级别的时间复杂度定位到数据行,而不是线性扫描整个表。

索引的核心价值

  • 大幅减少数据读取量(从百万行缩小到几行)
  • 避免排序和临时表
  • 帮助查找唯一值
  • 加速 JOINGROUP BYORDER BY

二、索引的两大核心类型

2.1 聚集索引(Clustered Index)

  • 数据行的物理排序依据:聚集索引的叶子节点就是完整的数据行
  • 每张表只能有一个:因为数据行只能按一种物理顺序存储。
  • 推荐每张表都有聚集索引:没有聚集索引的表称为堆表(Heap)
-- 创建聚集索引(通常在主键上自动创建)
CREATE CLUSTERED INDEX IX_Orders_OrderDate 
ON Orders(OrderDate);

💡 常见问题:主键默认就是聚集索引,但这不是绝对的。你可以将主键设为非聚集索引,也可以在不做主键的列上创建聚集索引。

2.2 非聚集索引(Non-Clustered Index)

  • 叶子节点存储的是指向数据行的指针(如果表有聚集索引,指针就是聚集索引键;如果是堆表,指针就是 RID)
  • 每张表可以有多个(最多 999 个)
  • 常用于频繁作为查询条件的列(WHEREJOINORDER BY
-- 创建非聚集索引
CREATE NONCLUSTERED INDEX IX_Orders_CustomerID 
ON Orders(CustomerID);

2.3 核心区别对比

对比项 聚集索引 非聚集索引
每表数量 1 最多 999
叶子节点内容 完整数据行 指针(RID 或聚集键)
查找方式 直接定位 先找指针,再回表查数据
物理顺序 决定表存储顺序 不影响表存储顺序
空间占用 较大(包含所有列) 较小(仅索引列+指针)

三、索引是如何工作的?Seek vs Scan

3.1 Seek(查找)

  • 利用 B-Tree 结构直接定位到符合条件的行
  • 复杂度:O(log N)
  • 对于 100 万行数据,Seek 大约只需要 20 次逻辑读取

3.2 Scan(扫描)

  • 遍历整个索引或整个表的所有行
  • 复杂度:O(N)
  • 100 万行数据 = 至少 100 万次读取

3.3 一个直观的演示

-- 准备测试数据(100万行)
DROP TABLE IF EXISTS Orders;
CREATE TABLE Orders (OrderID INT IDENTITY(1,1),OrderDate DATE,CustomerID INT,Amount DECIMAL(10,2)
);-- 插入100万条随机数据
WITH Numbers AS (SELECT TOP 1000000 ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) AS nFROM sys.all_columns a CROSS JOIN sys.all_columns b
)
INSERT INTO Orders (OrderDate, CustomerID, Amount)
SELECT DATEADD(day, n % 3650, '2020-01-01'),(n % 10000) + 1,ROUND(RAND(CHECKSUM(NEWID())) * 10000, 2)
FROM Numbers;
GO-- 第一次查询:无索引,全表扫描
SET STATISTICS TIME ON;
SET STATISTICS IO ON;SELECT * FROM Orders WHERE CustomerID = 12345;-- 观察输出:逻辑读取次数很大(约 3000-4000 次)
-- 执行计划:Table Scan
-- 添加索引
CREATE NONCLUSTERED INDEX IX_Orders_CustomerID ON Orders(CustomerID);
GO-- 再次查询
SELECT * FROM Orders WHERE CustomerID = 12345;-- 观察输出:逻辑读取次数大幅降低(约 10-20 次)
-- 执行计划:Index Seek + Key Lookup

四、常见索引误区(以及正确做法)

❌ 误区 1:索引越多越好

事实:每增加一个非聚集索引,INSERTUPDATEDELETE 操作都要同时维护该索引。索引不是免费的。

建议:定期使用 DMV 检查未使用的索引,及时删除。

❌ 误区 2:所有表都应该有聚集索引

事实:90% 的表都应该有聚集索引,但存在少数例外——比如极端插入性能要求的日志表,堆表可能更快(没有聚集索引的插入开销)。

建议:除非有明确的理由,否则为每张表创建聚集索引。

❌ 误区 3:WHERE 列建了索引就能加速

事实:以下情况索引可能被忽略:

  • 对索引列使用函数:WHERE YEAR(OrderDate) = 2024
  • 数据类型隐式转换:WHERE OrderID = '123'(OrderID 是 INT)
  • 前导通配符:WHERE Name LIKE '%Smith'
  • 低选择性列(如性别:男/女),优化器可能认为扫描更便宜

建议:定期查看执行计划,确认索引是否被实际使用。

五、快速诊断:你的索引健康吗?

5.1 找出从未使用过的索引

SELECT OBJECT_NAME(i.object_id) AS TableName,i.name AS IndexName,i.type_desc,s.user_seeks,s.user_scans,s.user_lookups,s.user_updates
FROM sys.indexes i
LEFT JOIN sys.dm_db_index_usage_stats s ON i.object_id = s.object_id AND i.index_id = s.index_id
WHERE OBJECTPROPERTY(i.object_id, 'IsUserTable') = 1AND (s.user_seeks + s.user_scans + s.user_lookups = 0 OR s.user_seeks IS NULL)AND i.name IS NOT NULL
ORDER BY ISNULL(s.user_updates, 0) DESC;

对于 user_seeks/scans/lookups 全为 0 的索引,说明自上次服务重启以来从未被查询使用过,建议评估后删除。

5.2 找出缺失的索引(SQL Server 自动推荐)

SELECT migs.avg_total_user_cost * migs.avg_user_impact * (migs.user_seeks + migs.user_scans) AS Score,mid.statement AS TableName,mid.equality_columns,mid.inequality_columns,mid.included_columns,migs.user_seeks,migs.avg_total_user_cost
FROM sys.dm_db_missing_index_groups mig
INNER JOIN sys.dm_db_missing_index_group_stats migs ON migs.group_handle = mig.index_group_handle
INNER JOIN sys.dm_db_missing_index_details mid ON mig.index_handle = mid.index_handle
WHERE mid.database_id = DB_ID()
ORDER BY Score DESC;

按 Score 降序排列,Score 越高表示创建该索引的潜在收益越大。

5.3 检查索引碎片

SELECT OBJECT_NAME(ips.object_id) AS TableName,i.name AS IndexName,ips.avg_fragmentation_in_percent,ips.page_count,ips.avg_page_space_used_in_percent
FROM sys.dm_db_index_physical_stats(DB_ID(), NULL, NULL, NULL, 'LIMITED') ips
JOIN sys.indexes i ON ips.object_id = i.object_id AND ips.index_id = i.index_id
WHERE ips.avg_fragmentation_in_percent > 30
ORDER BY ips.avg_fragmentation_in_percent DESC;

碎片率 > 30% 时建议重新组织或重建索引。

六、核心总结

要点 说明
索引的本质 B-Tree 结构,相当于书的目录
聚集索引 每表一个,叶子节点存完整数据行
非聚集索引 每表最多 999 个,叶子节点存指针
Seek vs Scan Seek 是 O(log N),Scan 是 O(N)
索引不是万能的 维护有成本,查询写法会影响使用
定期检查 清理无用索引,补充缺失索引,处理碎片

一句话记住本期内容

索引是查询加速的基石,但缺少索引一定慢,索引过多也一定慢——关键在于平衡。

下一期预告

复合索引与列顺序的奥秘

  • 为什么 (A, B)(B, A) 完全不同?
  • 如何选择索引列的先后顺序?
  • 什么是覆盖索引?如何避免 Key Lookup?
  • 实战:一个复合索引如何同时加速 5 种查询?

📌 本文所有代码均在 SQL Server 2019+ 环境下验证通过。如果你在阅读中有任何疑问,或者想深入了解某个知识点,欢迎留言交流。

本系列持续更新中,点击关注不错过下一期。