当前位置:   article > 正文

MySQL优化器查询成本计算_mysql 索引成本计算

mysql 索引成本计算

什么是成本

  • I/O成本

    我们的表经常使用的MyISAMInnoDB存储引擎都是将数据和索引都存储到磁盘上的,当我们想查询表中的记录时,需要先把数据或者索引加载到内存中然后再操作。这个从磁盘到内存这个加载的过程损耗的时间称之为I/O成本。

  • CPU成本

    读取以及检测记录是否满足对应的搜索条件、对结果集进行排序等这些操作损耗的时间称之为CPU成本。

对于InnoDB存储引擎来说,页是磁盘和内存之间交互的基本单位,读取一个页面花费的成本默认是1.0,读取以及检测一条记录是否符合搜索条件的成本默认是0.21.00.2这些数字称之为成本常数。

单表查询的成本

  1. 根据搜索条件,找出所有可能使用的索引
  2. 计算全表扫描的代价
  3. 计算使用不同索引执行查询的代价
  4. 对比各种执行方案的代价,找出成本最低的那一个

根据搜索条件,找出所有可能使用的索引

计算全表扫描的代价

对于InnoDB存储引擎来说,全表扫描的意思就是把聚簇索引中的记录都依次和给定的搜索条件做一下比较,把符合搜索条件的记录加入到结果集,所以需要将聚簇索引对应的页面加载到内存中,然后再检测记录是否符合搜索条件。由于查询成本=I/O成本+CPU成本,所以计算全表扫描的代价需要两个信息:

  • 聚簇索引占用的页面数
  • 该表中的记录数

MySQL为每个表维护了一系列的统计信息SHOW TABLE STATUS语句来查看表的统计信息,如果要看指定的某个表的统计信息,在该语句后加对应的LIKE语句,例如:

mysql> SHOW TABLE STATUS LIKE 'single_table'\G
*************************** 1. row ***************************
           Name: single_table
         Engine: InnoDB
        Version: 10
     Row_format: Dynamic
           Rows: 9693
 Avg_row_length: 163
    Data_length: 1589248
Max_data_length: 0
   Index_length: 2752512
      Data_free: 4194304
 Auto_increment: 10001
    Create_time: 2018-12-10 13:37:23
    Update_time: 2018-12-10 13:38:03
     Check_time: NULL
      Collation: utf8_general_ci
       Checksum: NULL
 Create_options:
        Comment:
1 row in set (0.01 sec)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21

虽然出现了很多统计选项,但我们目前只关心两个:

  • Rows

    表中的记录条数。对于使用MyISAM存储引擎的表来说,该值是准确的,对于使用InnoDB存储引擎的表来说,该值是一个估计值。从查询结果我们也可以看出来,由于我们的single_table表是使用InnoDB存储引擎的,所以虽然实际上表中有10000条记录,但是SHOW TABLE STATUS显示的Rows值只有9693条记录。

  • Data_length

    本选项表示表占用的存储空间字节数。使用MyISAM存储引擎的表来说,该值就是数据文件的大小,对于使用InnoDB存储引擎的表来说,该值就相当于聚簇索引占用的存储空间大小,也就是说可以这样计算该值的大小:

    Data_length = 聚簇索引的页面数量 x 每个页面的大小
    
    
    • 1
    • 2

    我们的single_table使用默认16KB的页面大小,而上边查询结果显示Data_length的值是1589248,所以我们可以反向来推导出聚簇索引的页面数量

    聚簇索引的页面数量 = 1589248 ÷ 16 ÷ 1024 = 97
    
    • 1

现在可以看一下全表扫描成本的计算过程:

  • I/O成本

    97 x 1.0 + 1.1 = 98.1
    
    
    • 1
    • 2

    97指的是聚簇索引占用的页面数,1.0指的是加载一个页面的成本常数,后边的1.1是一个微调值,我们不用在意。

  • CPU成本:

    9693 x 0.2 + 1.0 = 1939.6
    
    
    • 1
    • 2

    9693指的是统计数据中表的记录数,对于InnoDB存储引擎来说是一个估计值,0.2指的是访问一条记录所需的成本常数,后边的1.0是一个微调值,我们不用在意。

  • 总成本:

    98.1 + 1939.6 = 2037.7
    
    
    • 1
    • 2

综上所述,对于single_table的全表扫描所需的总成本就是2037.7

表中的记录其实都存储在聚簇索引对应B+树的叶子节点中,我们只需要找到最小记录行,就可以沿着叶子节点组成的双向链表把所有记录都查看一遍。也就是说全表扫描这个过程其实有的B+树内节点是不需要访问的,但是在计算全表扫描成本时直接使用聚簇索引占用的页面数作为计算I/O成本的依据,是不区分内节点和叶子节点的。

计算使用不同索引执行查询的代价

SELECT * FROM single_table WHERE 
    key1 IN ('a', 'b', 'c') AND 
    key2 > 10 AND key2 < 1000 AND 
    key3 > key2 AND 
    key_part1 LIKE '%hello%' AND
    common_field = '123';
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

从第1步分析我们得到,上述查询可能使用到idx_key1idx_key2这两个索引

使用idx_key2执行查询的成本分析

使用idx_key2搜索的示意图就是这样子:

在这里插入图片描述

对于使用二级索引 + 回表方式的查询:

  • 范围区间数量

    不论某个范围区间的二级索引到底占用了多少页面,查询优化器粗暴的认为读取索引的一个范围区间的I/O成本和读取一个页面是相同的(因为可以准确定位到最小值的叶子节点,利用双向链表的特性向后遍历即可,所以只有一次随机IO)。本例中使用idx_key2的范围区间只有一个:(10, 1000),所以相当于访问这个范围区间的二级索引付出的I/O成本就是:

    1 x 1.0 = 1.0
    
    
    • 1
    • 2
  • 需要回表的记录数

    优化器需要计算二级索引的某个范围区间到底包含多少条记录,对于本例来说就是要计算idx_key2(10, 1000)这个范围区间中包含多少二级索引记录,计算过程是这样的:

    • 步骤1:先根据key2 > 10这个条件访问一下idx_key2对应的B+树索引,找到满足key2 > 10这个条件的第一条记录,这个搜索过程是常数级别的,性能消耗是可以忽略不计的。
    • 步骤2:然后再根据key2 < 1000这个条件继续从idx_key2对应的B+树索引中找出最后一条满足这个条件的记录,我们把这条记录称之为区间最右记录,同步骤1。
    • 步骤3:如果区间最左记录区间最右记录相隔不太远(在MySQL 5.7.21这个版本里,只要相隔不大于10个页面即可),那就可以精确统计出满足key2 > 10 AND key2 < 1000条件的二级索引记录条数。否则只沿着区间最左记录向右读10个页面,计算平均每个页面中包含多少记录,然后用这个平均值乘以区间最左记录区间最右记录之间的页面数量就可以了。那么问题又来了,怎么估计区间最左记录区间最右记录之间有多少个页面呢?解决这个问题还得回到B+树索引的结构中来:

在这里插入图片描述

    > 如图,我们通过`区间最左记录`和`区间最右记录`向上递归查找父节点**两个目录项记录相隔的页数**
  • 1
  • 根据上述算法测得idx_key2在区间(10, 1000)之间大约有95条记录。读取这95条二级索引记录需要付出的CPU成本(需要判断二级索引是否符合搜索条件——10<x<1000)就是:

    95 x 0.2 + 0.01 = 19.01
    
    
    • 1
    • 2

    其中95是需要读取的二级索引记录条数,0.2是读取一条记录成本常数,0.01是微调。

  • 根据这些记录里的主键值到聚簇索引中做回表操作,预计有95条二级索引记录需要进行回表操作,所以回表操作带来的I/O成本就是:

    95 x 1.0 = 95.0
    
    
    • 1
    • 2

    其中95是预计的二级索引记录数,1.0是一个页面的I/O成本常数。

  • 回表操作后得到的完整用户记录,然后再检测其他搜索条件是否成立,

    回表操作的本质就是通过二级索引记录的主键值到聚簇索引中找到完整的用户记录,然后再检测除key2 > 10 AND key2 < 1000这个搜索条件以外的搜索条件是否成立。

    这个比较过程花费的CPU成本就是:

    95 x 0.2 = 19.0
    
    • 1

所以本例中使用idx_key2执行查询的成本就如下所示:

  • I/O成本:

    1.0 + 95 x 1.0 = 96.0 (范围区间的数量 + 预估的二级索引记录条数)
    
    
    • 1
    • 2
    • CPU成本:

      95 x 0.2 + 0.01 + 95 x 0.2 = 38.01 (读取二级索引记录的成本 + 读取并检测回表后聚簇索引记录的成本)
      
      
      • 1
      • 2

    综上所述,使用idx_key2执行查询的总成本就是:

    96.0 + 38.01 = 134.01
    
    • 1

使用idx_key1执行查询的成本分析,同上

使用idx_key1的成本:168.21

对比各种执行方案的代价,找出成本最低的那一个

基于索引统计数据的成本计算

有时候使用索引执行查询时会有许多单点区间,比如使用IN语句就很容易产生非常多的单点区间,比如下边这个查询(下边查询语句中的...表示还有很多参数):

SELECT * FROM single_table WHERE key1 IN ('aa1', 'aa2', 'aa3', ... , 'zzz');
  • 1

这个查询可能使用到的索引就是idx_key1,由于这个索引并不是唯一二级索引,所以并不能确定一个单点区间对应的二级索引记录的条数有多少,需要我们去计算。计算方式我们上边已经介绍过了,就是先获取索引对应的B+树的区间最左记录区间最右记录,然后再计算这两条记录之间有多少记录(记录条数少的时候可以做到精确计算,多的时候只能估算(跨度范围大于10页))。MySQL中通过直接访问索引对应的B+树来计算某个范围区间对应的索引记录条数的方式称之为index dive

有零星几个单点区间的话,使用index dive的方式去计算这些单点区间对应的记录数也不是什么问题,可是你架不住有的孩子憋足了劲往IN语句里塞东西呀,我就见过有的同学写的IN语句里有20000个参数的

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/502564
推荐阅读
相关标签