当前位置：首页 > news >正文

MySQL InnoDB存储引擎

news 来源：原创 2024/9/20 7:47:27

MySQL InnoDB存储引擎

InnoDB 存储引擎的优点：由于 InnoDB 存储引擎存储的数据量大，性能高，可以有效的保证数据安全等优点，在 MySQL 5.5 后称为了默认的存储引擎。

InnoDB 内存结构：缓冲池（buffer poll）变更缓冲池（Change Buffer）日志缓冲区（Log Buffer）自适应哈希（Adaptive Hash Index）

缓冲池作用：内存中主要工作区域，优化查询性能变更缓冲区作用：优化修改操作的性能日志缓冲区作用：自适应哈希作用：进一步提升查询的性能

磁盘结构中包括：系统表空间：独立表空间：通用表空间：临时表空间：撤销表空间：重做日志：双写缓冲区：

以上这些都是保存的是真是的数据。

InnoDB 为什么要设计成内存和磁盘两个部分：因为真实的数据需要保存在磁盘里，但是磁盘的速度是比较慢的，而严重影响数据库整体的性能，而影响应用程序的性能，所以我们需要将常用的数据放在内存中，提示查询速率，但是内存中的数据是易失的，所以可以将常用的数据缓存在内存里，当第二次查询同样的数据，那么就可以将缓存的数据直接返回给客户端。所以磁盘是用来持久化的，而内存是用来缓存提高效率的。

使用 InnoDB 存储引擎创建的表对应的数据文件在哪里： 1.数据目录所在的路径当创建一个数据库时，会在数据目录生成一格与数据库同名的子目录，数据库同名的子目录中保存的是表对应的数据文件

MySQL 存储结构： MySQL为了有效的维护数据而定义的一系列数据结构

什么是表空间文件：表空间文件就是用来存储数据的文件，表空间文件的大小由存储的数据多少决定的，不同的表空间文件存储的种类也是有所不同的，在MySQL 中表空间分为五类，系统表空间，独立表空间，通用表空间，临时表空间，撤销表空间。

表空间和表空间文件的关系：对于使用者而言，表空间，表空间文件，数据文件，是一个东西。而表空间就是设计层面上的，而表空间文件就是实际层面的，以文件的形式存在在次磁盘上面。

用户数据在表空间中是如何存储的：想要搞清楚用户的数据在表空间中是如何存储的，实际上我们只需要知道 MySQL 的存储结构是如何定义的，其实这两个就是一个问题。首先我们知道，用户的数据是以数据行的方式存储在对应的表空间文件中的，所以我们就需要对表空间文件中的数据行进行管理，而为了方便管理，表空间是由，段，区组，区，页，数据行，组成的，其中页是 InnoDB 中磁盘管理的最小单位。

为什么使用页这个数据管理单元： MySQL 是一个应用程序，它是运行在操作系统上的，而 MySQL 不论是数据的存储还是查询，实际上都是需要经过磁盘的，而磁盘作为硬件应用程序并不能直接访问，所以需要通过操作系统，而所以MySQL读取或者是写入都是需要经过操作系统的，但是操作系统一次性读取次磁盘都是最小4k，而MySQL为了一次性读取更多的数据，自己定义了一个数据结构页，一次是16k，而 MySQL 的在读取或者写入的时候大量的时间都是消耗在了磁盘的IO上，但是如果一次性读取16k的话，根据局部性原原理，大概率下一次访问的数据也在这一次读取的数据中，所以下一次就不需要继续访问磁盘了，这样也就提高了MySQL的整体性能。

局部性原理：程序在执行的时候呈现的局部性规律，整个程序在执行的过程中，在一段时间内大概只执行该程序的的某一部分，而局部性原原理通常有两种形式：时间和空间局部性时间局部性就是一个信息在被访问的时候，那么大概率在这段时间内会被一直访问。空间局部性就是正在访问的数据可能就是下一次访问数据的地址空间是相近的。

页结构： MySQL 中有许多不同类型的页，但是每一种页都会包含页头，页尾，在页头，页尾之间的页主体信息根据不同的类型有不同的结构，最常见的就是用来存储数据和索引的“索引页”，也叫做 “数据页”，页的注意信息使用数据行进行填充。

查询的数据超过一页的大小，如何提高查询效率： 1.不同的页在磁盘中是不是连续的：不一定，在不做任何控制的情况下，不同的页在磁盘中申请的地址大概率是不连续的。

2.为什么不连续的地址会降低查询的效率：当存储的介质是机械硬盘时，访问不连续的地址会带来磁盘寻址的开销，也就是磁盘的随机访问。因为在磁盘上，当我们需要访问一个数据的时候，需要先找到对应的磁道，然后在找到对应的扇区，最后才是读取数据，所以磁头的移动是很费时的。

3.如果页不是连续的，对访问效率是否有影响：

4.InnoDB 如何保证页在磁盘中的连续性：为了解决磁盘的随机访问这个问题，所以需要尽可能的在磁道上读取连续的数据，介绍磁头的移动，MySQL 使用区这个结构来管理页，规定每个区固定为1MB，可以存放64个页，所以即使跨页读取数据，那么大概率也是在附件的地址。

我们知道 InnoDB 是使用区来组织页的，并且每一个区都是固定大小1MB，可以包括64个页，所以说查询的数据超过1页的时候会有下面的情况页在区内，并且页相邻：这时候磁盘是顺序IO，大幅的提升磁盘的IO效率页在区内，但不相邻：这时候可以大量的减少磁头的移动，可以提升效率页在不同的区内：这种情况是不能提升效率的

区的特点：大小1MB

区和页的关系：区是管理页的，区中包含若干个页，保证区中页的连续性

当表中的数据很少的时候，如何避免空间浪费：为什么表中数据很少的时候会存在空间的浪费？因为区的特点就是一次申请1MB，那么当新创建的表中，数据的大小不能确定，所以不一定这个表一定可以使用完1MB，所以就会存在空间的浪费。那么MySQL为了解决这个问题，在刚开始创建的表中实际上只有7页，而不是申请一个完整的区。刚开始的这些页会放在碎片区，当数据量达到32页的时候，后面的申请就会每次申请一个完整的区。通过零散页和碎片区来避免空间浪费。

如果访问的数据跨区了，如何提高查询效率： 1.区的偏移量 2.区管理的数据的范围 3.用双向链表把区组织起来对于区组也需要管理自身的属性 1.区组管理数据的范围 2.用双向链表把区组也组织起来碎片区作为表空间中的第一个区组中的第一个区，而这个区的前四页，这个是比较特殊的： File Space Header:表空间和区组中的条目信息 Insert Buffer Bitmap: Change Buffer 的相关信息 File Segment inode: 段信息 B-tree Node：索引根信息其他为空闲也用来保存真实的数据使用区组结构有效的管理区，每个区组管理256个区也就是256MB，区组条目的信息会记录在每个区的偏移并用双向链表链接。

上面的数据结构还有优化的空间吗：上面说的区，区组和页都是物理结构，而在这些物理结构的基础上定义了一个逻辑结构，段。段可以区分不同功能的区在碎片中的页，并按功能分为叶子节点段和非叶子节点段，作为B+树索引中的叶子和非叶子节点。

上面所有的操作是在哪里进行的：所有的数据库操作在内存中进行的，当数据处理完毕后又会刷新到磁盘中对应的页上。

查询数据时MySQL会一次性将表中的数据全部加载到内存中吗：如果将一个表中的全部数据都加载到内存中的话，可能这个表的数据量是比较大的，内存是无法满足表中全部的数据的，所以不会吧表中的数据全部加载到内存中。

没查询一条数据都要进行一次IO吗：前面我们说了当我们查询数据的时候，我们需要先看一下缓存里面有没有，当缓存里面没有的话才会进行磁盘IO，而每一次的磁盘IO也并不是只加载一条数据行，而是当找到对应的数据行的时候，会将该数据行所在的页全部加载到内存中，所以当我们每次进行查询一条数据的时候，并不一定会每次都进行IO，而且在MySQL中如果当一个区中的页经常被访问的时候，MySQL也会将区中的页加载到内存中，以便于访问。

页大小可以设置吗：在MySQL中有一个系统变量 innodb_page_size 可以设置页大小，这里建议4kb 的整数倍。

在 MySQL 中有哪些页？我们重点关注哪些：因为 MySQL 中有许多不同的数据需要存储，所以常见的就有，数据页， Undo Log 页， Change Buffer 页， Extent Descriptor 页，但是我们最关注的是数据页。在InnoDB 中也可以叫索引页。