赞
踩
I/O
成本
我们的表经常使用的MyISAM
、InnoDB
存储引擎都是将数据和索引都存储到磁盘上的,当我们想查询表中的记录时,需要先把数据或者索引加载到内存中然后再操作。这个从磁盘到内存这个加载的过程损耗的时间称之为I/O
成本。
CPU
成本
读取以及检测记录是否满足对应的搜索条件、对结果集进行排序等这些操作损耗的时间称之为CPU
成本。
对于
InnoDB
存储引擎来说,页是磁盘和内存之间交互的基本单位,读取一个页面花费的成本默认是1.0
,读取以及检测一条记录是否符合搜索条件的成本默认是0.2
。1.0
、0.2
这些数字称之为成本常数。
- 根据搜索条件,找出所有可能使用的索引
- 计算全表扫描的代价
- 计算使用不同索引执行查询的代价
- 对比各种执行方案的代价,找出成本最低的那一个
对于InnoDB
存储引擎来说,全表扫描的意思就是把聚簇索引中的记录都依次和给定的搜索条件做一下比较,把符合搜索条件的记录加入到结果集,所以需要将聚簇索引对应的页面加载到内存中,然后再检测记录是否符合搜索条件。由于查询成本=I/O
成本+CPU
成本,所以计算全表扫描的代价需要两个信息:
MySQL
为每个表维护了一系列的统计信息
。SHOW TABLE STATUS
语句来查看表的统计信息,如果要看指定的某个表的统计信息,在该语句后加对应的LIKE
语句,例如:
mysql> SHOW TABLE STATUS LIKE 'single_table'\G *************************** 1. row *************************** Name: single_table Engine: InnoDB Version: 10 Row_format: Dynamic Rows: 9693 Avg_row_length: 163 Data_length: 1589248 Max_data_length: 0 Index_length: 2752512 Data_free: 4194304 Auto_increment: 10001 Create_time: 2018-12-10 13:37:23 Update_time: 2018-12-10 13:38:03 Check_time: NULL Collation: utf8_general_ci Checksum: NULL Create_options: Comment: 1 row in set (0.01 sec)
虽然出现了很多统计选项,但我们目前只关心两个:
Rows
表中的记录条数。对于使用MyISAM
存储引擎的表来说,该值是准确的,对于使用InnoDB
存储引擎的表来说,该值是一个估计值。从查询结果我们也可以看出来,由于我们的single_table
表是使用InnoDB
存储引擎的,所以虽然实际上表中有10000条记录,但是SHOW TABLE STATUS
显示的Rows
值只有9693条记录。
Data_length
本选项表示表占用的存储空间字节数。使用MyISAM
存储引擎的表来说,该值就是数据文件的大小,对于使用InnoDB
存储引擎的表来说,该值就相当于聚簇索引占用的存储空间大小,也就是说可以这样计算该值的大小:
Data_length = 聚簇索引的页面数量 x 每个页面的大小
我们的single_table
使用默认16KB
的页面大小,而上边查询结果显示Data_length
的值是1589248
,所以我们可以反向来推导出聚簇索引的页面数量
:
聚簇索引的页面数量 = 1589248 ÷ 16 ÷ 1024 = 97
现在可以看一下全表扫描成本的计算过程:
I/O
成本
97 x 1.0 + 1.1 = 98.1
97
指的是聚簇索引占用的页面数,1.0
指的是加载一个页面的成本常数,后边的1.1
是一个微调值,我们不用在意。
CPU
成本:
9693 x 0.2 + 1.0 = 1939.6
9693
指的是统计数据中表的记录数,对于InnoDB
存储引擎来说是一个估计值,0.2
指的是访问一条记录所需的成本常数,后边的1.0
是一个微调值,我们不用在意。
总成本:
98.1 + 1939.6 = 2037.7
综上所述,对于single_table
的全表扫描所需的总成本就是2037.7
。
表中的记录其实都存储在聚簇索引对应B+树的叶子节点中,我们只需要找到最小记录行,就可以沿着叶子节点组成的双向链表把所有记录都查看一遍。也就是说全表扫描这个过程其实有的B+树内节点是不需要访问的,但是在计算全表扫描成本时直接使用聚簇索引占用的页面数作为计算I/O成本的依据,是不区分内节点和叶子节点的。
SELECT * FROM single_table WHERE
key1 IN ('a', 'b', 'c') AND
key2 > 10 AND key2 < 1000 AND
key3 > key2 AND
key_part1 LIKE '%hello%' AND
common_field = '123';
从第1步分析我们得到,上述查询可能使用到
idx_key1
和idx_key2
这两个索引
使用idx_key2
搜索的示意图就是这样子:
对于使用二级索引 + 回表
方式的查询:
范围区间数量
不论某个范围区间的二级索引到底占用了多少页面,查询优化器粗暴的认为读取索引的一个范围区间的I/O
成本和读取一个页面是相同的(因为可以准确定位到最小值的叶子节点,利用双向链表的特性向后遍历即可,所以只有一次随机IO)。本例中使用idx_key2
的范围区间只有一个:(10, 1000)
,所以相当于访问这个范围区间的二级索引付出的I/O
成本就是:
1 x 1.0 = 1.0
需要回表的记录数
优化器需要计算二级索引的某个范围区间到底包含多少条记录,对于本例来说就是要计算idx_key2
在(10, 1000)
这个范围区间中包含多少二级索引记录,计算过程是这样的:
key2 > 10
这个条件访问一下idx_key2
对应的B+
树索引,找到满足key2 > 10
这个条件的第一条记录,这个搜索过程是常数级别的,性能消耗是可以忽略不计的。key2 < 1000
这个条件继续从idx_key2
对应的B+
树索引中找出最后一条满足这个条件的记录,我们把这条记录称之为区间最右记录
,同步骤1。区间最左记录
和区间最右记录
相隔不太远(在MySQL 5.7.21
这个版本里,只要相隔不大于10个页面即可),那就可以精确统计出满足key2 > 10 AND key2 < 1000
条件的二级索引记录条数。否则只沿着区间最左记录
向右读10个页面,计算平均每个页面中包含多少记录,然后用这个平均值乘以区间最左记录
和区间最右记录
之间的页面数量就可以了。那么问题又来了,怎么估计区间最左记录
和区间最右记录
之间有多少个页面呢?解决这个问题还得回到B+
树索引的结构中来: > 如图,我们通过`区间最左记录`和`区间最右记录`向上递归查找父节点**两个目录项记录相隔的页数**
根据上述算法测得idx_key2
在区间(10, 1000)
之间大约有95
条记录。读取这95
条二级索引记录需要付出的CPU
成本(需要判断二级索引是否符合搜索条件——10<x<1000)就是:
95 x 0.2 + 0.01 = 19.01
其中95
是需要读取的二级索引记录条数,0.2
是读取一条记录成本常数,0.01
是微调。
根据这些记录里的主键值到聚簇索引中做回表操作,预计有95
条二级索引记录需要进行回表操作,所以回表操作带来的I/O
成本就是:
95 x 1.0 = 95.0
其中95
是预计的二级索引记录数,1.0
是一个页面的I/O
成本常数。
回表操作后得到的完整用户记录,然后再检测其他搜索条件是否成立,
回表操作的本质就是通过二级索引记录的主键值到聚簇索引中找到完整的用户记录,然后再检测除key2 > 10 AND key2 < 1000
这个搜索条件以外的搜索条件是否成立。
这个比较过程花费的CPU
成本就是:
95 x 0.2 = 19.0
所以本例中使用idx_key2
执行查询的成本就如下所示:
I/O
成本:
1.0 + 95 x 1.0 = 96.0 (范围区间的数量 + 预估的二级索引记录条数)
CPU
成本:
95 x 0.2 + 0.01 + 95 x 0.2 = 38.01 (读取二级索引记录的成本 + 读取并检测回表后聚簇索引记录的成本)
综上所述,使用idx_key2
执行查询的总成本就是:
96.0 + 38.01 = 134.01
使用
idx_key1
的成本:168.21
有时候使用索引执行查询时会有许多单点区间,比如使用IN
语句就很容易产生非常多的单点区间,比如下边这个查询(下边查询语句中的...
表示还有很多参数):
SELECT * FROM single_table WHERE key1 IN ('aa1', 'aa2', 'aa3', ... , 'zzz');
这个查询可能使用到的索引就是
idx_key1
,由于这个索引并不是唯一二级索引,所以并不能确定一个单点区间对应的二级索引记录的条数有多少,需要我们去计算。计算方式我们上边已经介绍过了,就是先获取索引对应的B+
树的区间最左记录
和区间最右记录
,然后再计算这两条记录之间有多少记录(记录条数少的时候可以做到精确计算,多的时候只能估算(跨度范围大于10页))。MySQL
中通过直接访问索引对应的B+
树来计算某个范围区间对应的索引记录条数的方式称之为index dive
。
有零星几个单点区间的话,使用index dive
的方式去计算这些单点区间对应的记录数也不是什么问题,可是你架不住有的孩子憋足了劲往IN
语句里塞东西呀,我就见过有的同学写的IN
语句里有20000个参数的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。