赞
踩
参考文献《高性能MySQL(第三版)》
之前找实习、参加秋招时准备面试都没有系统地复习过索引,都是零零碎碎地看一下博客和公众号,总结出了一套面试索引相关问题的组合拳,现在有时间静下心来看看书,那就系统地把索引的知识梳理一下吧。
一般说到索引数据结构,大部分同学的第一反应就是B+树,其实不然。MySQL中的专业术语是B-Tree,在create table和其他语句中会见到B-Tree这个关键字。
虽然很多存储引擎都使用B-Tree索引,但底层真正的数据结构又有所不同。例如:
不同的存储引擎以不同的方式使用了B-Tree索引,性能也有差别。例如:
由于我们开发过程中使用InnoDB作为存储引擎的情况多,那么我们就具体地来学习下InnoDB的B-Tree索引的数据结构B+树吧。
先来看一棵B+树,它是1~10这10个数据的B-Tree索引:
当我们要查找6这个数据时,首先从树的根节点5出发,发现6比5大,往6的右子树继续查找;比较6和7,6比7小,往7的左子树查找;7的左子树正好是6,于是根据6这个中间节点的指针,就可以找到叶子节点6,6又可以根据叶子节点所指向数据行的指针来查询到真正的数据行。可以发现,使用索引去查询数据只是经过了4次的磁盘IO,比全表扫描需要6次磁盘IO减少了差不多一半,这就有效地提升了查询数据的效率。
结合上述查找的过程,我们来总结一下B+树的一些特点:
B+树索引这么强大,我们当然要好好利用上,但是索引也会失效,那么如何去避免呢?
结合《高性能MySQL(第三版)》中的例子,有这么一个表:
(last_name,first_name,dob)是表的联合索引,那么B+树的存储结构是这样的:
B+树索引对多个值的排序是按照create table时指定的索引顺序来进行排序的,我们可以发现最后两个节点中,当名字均为Basinger Viven时,节点的顺序按照出生日期来进行排序。使索引有效的方式有:
select ... from People where first_name = 'Allen' and last_name ='Cuba' and dob='1960-01-01'
select ... from People where first_name = 'Allen'
select ... from People where first_name like 'A%'
,这里也只是使用了索引的第一列select ... from People where first_name between 'Allen' and 'Barrymore'
,这里也只是使用了索引的第一列select ... from People where first_name = 'Allen' and last_name like 'K%'
,这里使用了索引first_name全匹配,last_name范围匹配select first_name,last_name,dob from People
(注:SQL表达式中的 … 表示某几个索引列)
此外,由于此B+树索引中的节点是有序的,故可以使用order by排序。
对于B+树索引的限制也应该了解,否则会导致一些查询语句无法走索引,导致索引失效使得查询效率低:
select ... from People where first_name = 'Allen' and last_name like 'K%' and dob = '1976-12-23'
,这个查询只能使用first_name和last_name这两个索引,dob索引是失效的。只有我们遵守了上述的规范,才可以发挥出索引的最大性能,不知不觉,这个高频面试题的答案就这样出来了。
所谓哈希索引,顾名思义就是基于哈希表实现的索引,只有精确匹配索引所有列的查询才是有效的。对于每一行数据,存储引擎会对所有的索引列计算一个哈希码,哈希索引将所有的哈希码存储在索引中,同时在哈希表中保存指向每个数据行的指针。
哈希索引的特性:
支持哈希索引的存储引擎有Memory和NDB集群引擎。此外,InnoDB有自适应哈希索引,当InnoDB发现某些索引值被查询得非常频繁时,它会在内存中基于B-Tree索引上再创建一个哈希索引,可以更快速地查询索引值。这是一个完全自动的行为,用户无法控制或配置。
MyISAM表支持空间索引,用于地理数据存储。它不必遵守最左前缀原则来查询。R-Tree会从所有纬度来索引数据。查询时,可以有效使用任意纬度来组合查询。
全文索引负责查找文本中的关键词,而不是直接比较索引中的值。在相同的列上可以同时创建全文索引和B-Tree索引,全文索引适用于match against操作,而非普通的where条件查询操作。
面试时经常会被问到:如何提高查询的效率?
对于这个面试题,很多同学第一反应就是加索引。的确,索引可以让服务器快速地定位到表中的数据行。其实根据前面的分析,索引的优点可以总结如下:
如果查询的列不是独立的,MySQL就不会使用索引。例如有个索引列为user_id,以下两种SQL都不会使用user_id索引:
select * from user where 表达式/函数(user_id)
select * from user where 表达式/函数(user_id)
只有查询的列和where条件列都是有索引列,才会使用user_id索引。例如:
select user_id from user where user_id = ?
有时需要索引很长的字符列,采用常规的索引会变得很大且很慢,应该怎么办呢?
针对这个问题,可以索引开始的部分字符,以节省索引空间,从而提高索引查询效率。但这样可能会造成索引选择性降低。
索引选择性:不重复的索引值和数据表总记录数的比值,比值大于0小于等于1。索引选择性越高则查询效率越高,因为选择性高的索引可以让MySQL在查询时过滤掉更多的行。唯一索引的索引选择性是1,因此查询效率最高。
一般情况下,某个列前缀的索引选择性是足够高的,足以满足查询性能。对于blob、text和长varchar的列,必须使用前缀索引,因为MySQL不允许索引这些列的完整长度。
多列索引是开发者们比较常犯的错误,即为每个列创建独立的索引,或者按照错误的顺序创建多列索引。例如:select a,b,c from t where a=1 and b=2 and c=3
语句,给t表的where条件里面的列a、b、c列都建立上索引,这种在多个列上建立独立的单列索引大部分情况下并不难提高MySQL的查询性能。
索引合并,MySQL 5.0及以上一定程度上可以使用表上的多个单列索引来定位指定的行。而老版本的MySQL中只能使用某一个单列索引,然而这种情况下没有哪一个独立的单列索引上非常有效的。例如,t表有a、b两个索引,老版MySQL中,对于select a,b from t where a=1 and b=2
语句,MySQL会进行全表扫描。除非改成如下的两个查询的union方式:select a,b from t where a=1 union all select a,b from t where b=2
;对于MySQL 5.0及以上,查询能够同时使用这两个单列索引进行扫描,并将结果进行合并。
虽然索引合并是MySQL的一种优化策略,以下情况使用多列索引还是很糟糕的:
我们常用的B+树索引中,索引列的顺序是索引首先按照最左列进行排序、然后是第二列…因此,索引可以按照升序或降序进行扫描,以满足order by、group by、distinct等子句的查询需求。
选择索引的列顺序有一个经验法则:将索引选择性最高的列放在索引最前列。
聚簇索引是一种索引数据的组织方式。我们常用的InnoDB中,主键其实就是聚簇索引。当表有聚簇索引时,表的数据行是存储在索引的叶子节点中的。
因为无法同时把数据行存储在两个不同的地方,所以一个表只能有一个聚簇索引
《高性能MySQL(第三版)》中的图5-3展示来聚簇索引中行记录的存放,索引叶子节点包含了数据行,索引的中间节点只是包含索引键。
InnoDB使用主键作为聚簇索引,如果没有定义主键,InnoDB则会选择一个唯一的非空索引来代替;若还是没有唯一的非空索引,InnoDB会隐式地将行ID作为主键。所以无论怎样,InnoDB都会有一个聚簇索引。
聚簇索引将数据进行聚合,有以下的优点:
同时,也存在一些缺点:
optimize table
命令重新组织表现在通过《高性能MySQL(第三版)》中的一个例子,来理解下聚簇索引和非聚簇索引的区别。对于这个表:
MySQL的InnoDB存储引擎和MyISAM存储引擎存储的方式是不同的。假设此表:
optimize table
命令重新组织了表满足上述这两个条件,使得该表的数据在磁盘上的存储方式已经是最优的,但数据行的顺序是随机的。
MyISAM的数据分布:
MyISAM的主键col1分布:
MyISAM的二级索引col2分布:
由图对比可见,MyISAM中主键索引和二级索引在存储结构上没有区别,仅有的区别就是主键索引是一个非空的唯一索引。
InnoDB的数据分布:
InnoDB聚簇索引的叶子节点包含了主键值、事务ID、用于事务和MVCC的回滚指针以及剩余的列(本例中是col2)。如果主键是一个列前缀索引,InnoDB也会包含完整的主键列和剩下的其他列。
可以看到,InnoDB的数据分布中聚簇索引与数据行是聚集在一起的,不会像MyISAM那样将主键索引与数据分开进行存储。
再来看看InnoDB的二级索引col2分布:
InnoDB二级索引的每一个叶子节点中都包含了索引列col2,然后是主键索引值col1。所以可以归纳出MyISAM与InnoDB的又一个不同点:InnoDB二级索引的叶子节点存储的不是行指针,而是主键值,并以主键值作为数据行指针,这种方式减少了当出现行移动或者数据页分裂时二级索引的维护工作。虽然使用主键值作为行指针会让二级索引占用更多的空间,但好处是InnoDB在移动行时无需更新二级索引的这个指针。
最后用一张抽象图总结InnoDB和MyISAM是如何存放数据和索引的:
向聚簇索引插入顺序的索引值:
因为主键的值是顺序的,故InnoDB把每一条记录都存储在上一条记录的后面,当达到页大小的15/16时,下一条记录会写入到新的页中。
向聚集索引插入随机的UUID索引值:
由于新行的主键值不一定比之前插入的大,故InnoDB需要为新的行寻找合适的位置来分配插入的空间,缺点如下:
因此,主键最好设置成顺序自增的。那顺序的主键会造成什么坏结果?
如果一个索引包含(覆盖)了所有需要查询的字段的值,就称这种索引为“覆盖索引”。覆盖索引的叶子节点中已经包含了要查询的数据,因此可以避免回表查询。使用覆盖索引可以极高地提升查询性能:
当发起了一个被索引覆盖的查询时,在explain的extra列可以看到“Using index”的信息
使用覆盖索引查询可以避免回表查询,但是如果要查询的字段并没有包含在覆盖索引中,还是会去回表查询的。比如 t 表中有 3 个列 a、b、c,覆盖索引是key(a,b),如果执行select a,b from t where a=? and b=?
,完全用到了覆盖索引,无需回表查询。但执行了select * from t where a=? and b=?
,虽然走了覆盖索引key(a,b),但它并没有覆盖c列,因此需要进行回表查询。
MySQL有两种方式可以生成有序的结果
当explain出来的type列的值为“index”,则说明MySQL使用索引扫描来做了排序。MySQL可以使用同一个索引既满足排序,又用于查找数据行。
使用索引扫描进行排序条件:
具体的例子就不举了,大家在工作中可以使用explain语句分析分析就知道有没有用到索引了,然后好好总结。
MyISAM使用前缀索引来压缩索引的大小,从而上更多的索引可以加载进内存中,有利于提高性能。MyISAM默认只压缩字符串,但也可以通过参数设置也可以对整数做压缩。压缩方法是:先完全保存索引块中对第一个值,然后将其他值和第一个值进行比较得到相同前缀的字节数和剩余的不同后缀部分,然后存储起来即可。例如,索引块的第一个值是“perform”,第二个值是“performance”,那么第二个值的前缀压缩后存储的是类似“7,ance”的形式。MyISAM对行指针也采用类似的前缀压缩方式。
压缩块使用更少的空间,但某些操作也会变慢。由于每个索引值的压缩前缀都依赖前面的值,故MyISAM查找时无法在索引块中使用二分查找,只能从头开始遍历。正序扫描速度还行,但倒序扫描就很慢了。
测试表面,对于CPU密集型应用,因为扫描需要随机查找,压缩索引使得MyISAM在索引查找上要慢很多。而对于IO密集型应用,压缩索引需要的磁盘空间很小,故对查询又会带来更多的好处。
MySQL允许在相同列上创建多个索引,MySQL需要单独维护重复的索引,并且优化器在优化查询时也需要逐个进行考虑,这会一定程度影响性能。
重复索引是值相同的列上按照相同的顺序创建的相同类型的索引,应该避免这样创建,发现后要立即移除。例如在主键id上又建了一个unique index唯一索引,但实际上主键id就已经是唯一的索引了,这就是重复索引了。
冗余索引与重复索引有所不同。若创建了索引(a,b),那再创建索引(a)这就是冗余索引了。但再创建了索引(b)或者索引(b,a),它们都不是冗余索引,所以区别是不是冗余索引就是看新建的索引列是不是最左前缀列。还有一种情况,对于二级索引,因为它的叶子节点已经包含了主键id,如果建这种(a,id)索引,这也是一种冗余。
冗余索引和重复索引都应该避免,发现的话就删除它们,以免影响性能。
有些服务器永远使用不到的索引其实是一种累赘,最好将其删除免得占用磁盘空间。Google或百度可以查找到使用什么工具去定位使用不到的索引,定位到这样的索引后,就把它们删除就可以了。
InnoDB有行锁和表锁。InnoDB只有在访问行的时候才会对其加锁,而索引能减少InnoDB访问的行数,从而减少锁的数量,但这只有当InnoDB在存储引擎层能够过滤掉所有不需要的行时才有效。如果索引没有办法过滤掉无效行,那在InnoDB检索到数据并返回给服务器层后,MySQL服务器才应用where子句,此时InnoDB已经锁住了这些行,到适当的时候才释放。(MySQL5.1及以上,服务器端过滤掉行之后就释放锁)
结合下面例子,有这条SQL:
查询结果:
该查询虽然返回了2~4的数据,但它实际上获取了1~4之间的行的排他锁。InnoDB会锁第一行,因为MySQL为该查询选择的执行计划是索引范围扫描:
底层存储引擎的操作实际上是:从索引的开头开始获取满足条件actor_id<5的记录,服务器并没有告诉InnoDB可以过滤第一行的where条件。extra列中出现了“using where”,这表明mysql服务器将存储引擎返回行以后再应用where过滤条件。
另外,再提一嘴,InnoDB在二级索引上使用共享锁,在主键索引上使用排他锁,这消除了使用覆盖索引的可能性,并且使select for update比lock in share mode或非锁定查询要慢很多。
由于MySQL索引展开来细讲的话可能要写成一本书了,限于篇幅和本人精力,故本文只是大致地梳理了索引的一些重点,可以加深对MySQL索引的理解,也为日后工作实践等提供资料参考。我是Zhongger,一个在互联网公司摸鱼写代码的打工人,我们下期见~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。