当前位置: 首页 > news >正文

通过手动创建统计信息优化sql查询性能案例

本质原因在于:SQL Server 统计信息只包含复合索引的第一个列的信息,而不包含复合索引数据组合的信息

 

来源于工作中的一个实际问题,

这里是组合列数据不均匀导致查询无法预估数据行数,从而导致无法选择合理的执行计划导致性能低下的情况

我这里把问题简单化,主要是为了说明问题

如下一张业务表,主要看两个“状态”字段,BusinessStatus1 和 BusinessStatus2

create table BusinessTable
(
    Id int identity(1,1),
    Col2 varchar(50),
    Col3 varchar(50),
    Col4 varchar(50),
    BusinessStatus1 tinyint,
    BusinessStatus2 tinyint,
    CreateDate Datetime
)
GO

--向测试表中写入数据:

begin tran
    declare @i int
    set @i=0
    while @i<500000
    begin
        insert into BusinessTable values (NEWID(),NEWID(),NEWID(),1,10,GETDATE()-RAND()*1000)
        insert into BusinessTable values (NEWID(),NEWID(),NEWID(),1,20,GETDATE()-RAND()*1000)
        insert into BusinessTable values (NEWID(),NEWID(),NEWID(),1,30,GETDATE()-RAND()*1000)
        
        insert into BusinessTable values (NEWID(),NEWID(),NEWID(),2,20,GETDATE()-RAND()*1000)
        insert into BusinessTable values (NEWID(),NEWID(),NEWID(),2,30,GETDATE()-RAND()*1000)
        insert into BusinessTable values (NEWID(),NEWID(),NEWID(),2,40,GETDATE()-RAND()*1000)

        insert into BusinessTable values (NEWID(),NEWID(),NEWID(),3,30,GETDATE()-RAND()*1000)
        insert into BusinessTable values (NEWID(),NEWID(),NEWID(),3,40,GETDATE()-RAND()*1000)
        insert into BusinessTable values (NEWID(),NEWID(),NEWID(),3,50,GETDATE()-RAND()*1000)


        set @i=@i+1
    end
commit

--插入一条特殊数据,也就是实际业务场景中:
insert into BusinessTable values (NEWID(),NEWID(),NEWID(),3,10,GETDATE()-RAND()*1000)

 

 

--测试数据的特点是:

--BusinessStatus1 的分布位:1,2,3,
--BusinessStatus2 的分布位:10,20,30,40,50

--目前数据的对应关系,

--但是注意插入的一条特殊数据:
--BusinessStatus1 和 BusinessStatus2 的组合为:BusinessStatus1=3 and BusinessStatus2=10,在451W条数据中是唯一的一个组合

--创建如下索引:
Create Clustered index idx_createDate on BusinessTable(CreateDate)

Create Index idx_status on BusinessTable(BusinessStatus1,BusinessStatus2)

 

 

进行如下查询,就是查询那条所谓的特殊数据

select * 
from BusinessTable 
where BusinessStatus1=3 and BusinessStatus2=10

发现执行计划如下:走的是全表扫描,IO代价也不小,

这种情况下,明明只有一条数据,却要走全表扫描

(实际业务中类似数据也不仅只有一条这么巧,但是在千万级的表中,符合类似条件的数据很少,

打个比方好理解一点,就像订单表一样,订单是退订状态,且尚未退款,这种数据的分布是少之又少吧

只是举例,不要较真)

上面查询的IO信息

 

再通过强制索引提示的情况下,发现同样的查询,IO有一个非常大的下降

 

分析上述sql为什么不走索引?因为毕竟符合条件的数据只有一条,走全表扫描代价也过于大了,尤其是实际情况中,业务表更大,逻辑也没有这么直白

这个还要从索引统计信息说起,在符合索引中,索引统计信息只是统计前导列的,对于组合列的分布,sqlserver是无法预估到的,这一点可以通过第一个查询的执行计划发现

sqlserver只是能够预估到 BusinessStatus1 =3 的情况下的数据分布,但是无法预估到 BusinessStatus1=3 and BusinessStatus2=10这个组合情况下的数据分布情况

当然通过统计信息也可以看到,统计信息只记录了BusinessStatus1的列的数据分布情况,但是实际执行的过程中,无法预估BusinessStatus1=3 and BusinessStatus2=10的准确分布

找到了问题的原因,就容易解决了,既然sqlserver无法预估到BusinessStatus1=3 and BusinessStatus2=10这个组合条件的数据分布请,

那么就创建一个过滤统计信息,让sqlserver准确地知道这个条件下数据的分布请,就容易做出相对准确的执行计划了

通过如下语句,创建一个该条件的统计信息

create statistics BusinessTableFilterStatistics 
on BusinessTable(BusinessStatus1,BusinessStatus2)
where BusinessStatus1=3 and BusinessStatus2=10


--创建完统计信息之后注意要做个更新
UPDATE STATISTICS BusinessTable BusinessTableFilterStatistics with fullscan

 

 

创建完统计信息之后,发现表上会增加一个刚刚创建的统计信息

 

现在再来看这个查询的执行计划情况,发现其按照预期的走了索引

 

同时观察起IO情况,也有一个大幅度的下降

 

总结:

以上通过手动创建统计信息,来促使sqlserver在生成执行计划的时候,准确地知道数据的分布情况,做出较为优化的执行计划,在某些特殊的情况下,可以作为优化的一个考虑方向

 

后记:

或许有人认为这个问题该归结于parameter sniff的问题,其实这个问题跟parameter sniff还不太一样(当然也有一点像)

通常情况下,所说的parameter sniff问题是单列数据分布不均匀的情况下,因为执行计划重用导致性能地下的一个现象,重点是执行计划的不合理重用

这里的问题在于,由于统计信息的数据计算方式,sqlserver 压根无法预估到符合条件数据的准确分布,从而无法做出合理的执行计划的情况

当然这种情况也比较特殊,在强制索引提示以外,可以通过手动创建统计信息来达到优化的目的

转载于:https://www.cnblogs.com/wy123/p/5427580.html

相关文章:

  • EmguCV(OpenCV)实现高效显示视频(YUV)叠加包括汉字
  • 如何优化sql语句
  • Android深度探索(卷1)HAL与驱动开发--读书笔记(第三章)
  • 怎么把文字设置为显示隐藏按钮
  • FCKeditor jsp配置
  • 将字符串编码成数值,求数值最大和问题
  • crontab 安装 和一些 简单的命令
  • eclipse 编译的时候 自动把SDK需要放入libs里面的so文件给删除了
  • 事件处理
  • 实测可用的宽度优先爬虫的实现
  • c语言描述简单的线性表,获取元素,删除元素,
  • 用两个栈实现一个队列
  • 将C#文档注释生成.chm帮助文档
  • 【VS开发】CListCtrl控件使用方法总结
  • python之路之正则表达式
  • ES6指北【2】—— 箭头函数
  • 【407天】跃迁之路——程序员高效学习方法论探索系列(实验阶段164-2018.03.19)...
  • 【MySQL经典案例分析】 Waiting for table metadata lock
  • 5分钟即可掌握的前端高效利器:JavaScript 策略模式
  • conda常用的命令
  • laravel5.5 视图共享数据
  • Less 日常用法
  • Python3爬取英雄联盟英雄皮肤大图
  • 给新手的新浪微博 SDK 集成教程【一】
  • 计算机常识 - 收藏集 - 掘金
  • 前端攻城师
  • 前嗅ForeSpider采集配置界面介绍
  • 使用putty远程连接linux
  • 通过几道题目学习二叉搜索树
  • 中文输入法与React文本输入框的问题与解决方案
  • HanLP分词命名实体提取详解
  • ​一文看懂数据清洗:缺失值、异常值和重复值的处理
  • !! 2.对十份论文和报告中的关于OpenCV和Android NDK开发的总结
  • # .NET Framework中使用命名管道进行进程间通信
  • # C++之functional库用法整理
  • #### go map 底层结构 ####
  • #中的引用型是什么意识_Java中四种引用有什么区别以及应用场景
  • $.ajax()
  • (Ruby)Ubuntu12.04安装Rails环境
  • (保姆级教程)Mysql中索引、触发器、存储过程、存储函数的概念、作用,以及如何使用索引、存储过程,代码操作演示
  • (欧拉)openEuler系统添加网卡文件配置流程、(欧拉)openEuler系统手动配置ipv6地址流程、(欧拉)openEuler系统网络管理说明
  • .net core webapi 部署iis_一键部署VS插件:让.NET开发者更幸福
  • .NET 设计模式—简单工厂(Simple Factory Pattern)
  • .net 怎么循环得到数组里的值_关于js数组
  • .Net7 环境安装配置
  • .net快速开发框架源码分享
  • .NET值类型变量“活”在哪?
  • ?php echo $logosrc[0];?,如何在一行中显示logo和标题?
  • @for /l %i in (1,1,10) do md %i 批处理自动建立目录
  • [2015][note]基于薄向列液晶层的可调谐THz fishnet超材料快速开关——
  • [AIGC] 如何建立和优化你的工作流?
  • [Android] Android ActivityManager
  • [Android]Tool-Systrace
  • [Android]使用Git将项目提交到GitHub
  • [J2ME]url请求返回参数非法(java.lang.illegalArgument)