当前位置: 首页 > news >正文

postgresql cluster和correlation



--今天查看pg_statsinfo报告时发现有如下警告,说明字段物理行序和逻辑行序相关不大
correlation of the clustered table fell below threshold in snapshot '2015-11-30 08:30:00' --- 't.order_num', 44.01 % (threshold = 70 %)


correlation的意义
correlation,统计与字段值的物理行序和逻辑行序有关,统计值范围从-1到1, 趋向于-1表示逆向相关, 趋向于1表示正向相关, 趋向于0表示不相关,
相关性越高, 走索引扫描的离散块扫描更少, 也就是说, 相关性越高, 走索引扫描的离散块扫描代价越低,
对于uuid列其相关性可能越近于0,如果相关性很低,可以考虑修改表字段值


--对于此种情景,可以使用cluster优化
cluster的好处 : 
1. 因为PostgreSQL 统计了表的物理存储顺序和每一列值的顺态值, 在执行计划选择时, 可以用到这个顺态值用作计算走索引的成本.
这个值越接近0, 说明表的物理分布上这个列的值比较离散, 走索引的成本越高; 
反之这个值越接近1或者-1, 说明表的物理分布上这个列的值比较有序, 走索引的成本越低; 
2. cluster 后, 表的物理分布就和索引一致了, 观察上面ctid的变化就可以得知. cluster完后查看pg_stats.correlation会等于1.
3. 注意cluster是一次性的, 在这个表做了dml 后, 物理分布又会被打乱.
4. 结合块设备的read ahead, cluster后, 如果执行计划走这个cluster了的索引取数据(如几百条到几万条[取数在全表来说是比较少的时候]), 可以减少大量的物理磁盘读请求.




--优化前的数据如下
postgres=# select * from pg_stats where tablename='t' and attname='order_num';
schemaname             | public
tablename              | t
attname                | order_num
n_distinct             | -0.6737
correlation            | 0.42853


--聚集化数据的存储与其索引
postgres=# cluster verbose t using order_num_index;
INFO:  clustering "public.t" using index scan on "order_num_index"
INFO:  "t": found 0 removable, 198250 nonremovable row versions in 6960 pages
DETAIL:  0 dead row versions cannot be removed yet.
CPU 0.68s/0.08u sec elapsed 3.76 sec.
CLUSTER
postgres=# vacuum analyze t ;
VACUUM
--再次查看相关性如下所示
postgres=# select * from pg_stats where tablename='t' and attname='order_num';
schemaname             | public
tablename              | t
attname                | order_num
correlation            | 1


--注意在cluster时,盘簇化是一次性操作:当表将来被更新之后,更改的内容不会被盘簇化排序
--在对一个表进行盘簇化排序的时候,会在其上请求一个 ACCESS EXCLUSIVE 锁,其它客户端即不能读也不能写
--磁盘空间会需要至少约 2 倍的表大小和索引大小


--综上对于大表或系统的热表,请慎重选择

相关文章:

  • 有限概率(拉普拉斯概率)
  • Android Stduio统计项目的代码行数
  • struts2获取web元素(request、session、application)
  • DVWA系列之4 利用SQLMap进行medium级别注入
  • Filter 过滤器
  • 剑指offer系列之七:斐波那契数列
  • make menuconfig出错解决方法
  • 二级菜单制作
  • iOS长按控件
  • ftp备份服务器数据完整性检查并实现短信告警功能的shell
  • 二叉树遍历算法之二:中序遍历
  • The network connection was lost.
  • 网络编程使用代理方法 , 简化请求和响应
  • jsp的标签和EL表达式
  • DEBUG命令详细说明
  • 08.Android之View事件问题
  • bearychat的java client
  • Laravel 中的一个后期静态绑定
  • Objective-C 中关联引用的概念
  • PAT A1092
  • SQLServer之索引简介
  • 第13期 DApp 榜单 :来,吃我这波安利
  • 基于Dubbo+ZooKeeper的分布式服务的实现
  • 区块链分支循环
  • 容器化应用: 在阿里云搭建多节点 Openshift 集群
  • 用Python写一份独特的元宵节祝福
  • 《码出高效》学习笔记与书中错误记录
  • 3月27日云栖精选夜读 | 从 “城市大脑”实践,瞭望未来城市源起 ...
  • ​LeetCode解法汇总518. 零钱兑换 II
  • # centos7下FFmpeg环境部署记录
  • #NOIP 2014#day.2 T1 无限网络发射器选址
  • $jQuery 重写Alert样式方法
  • (1)bark-ml
  • (超详细)语音信号处理之特征提取
  • (官网安装) 基于CentOS 7安装MangoDB和MangoDB Shell
  • (论文阅读26/100)Weakly-supervised learning with convolutional neural networks
  • (七)微服务分布式云架构spring cloud - common-service 项目构建过程
  • (新)网络工程师考点串讲与真题详解
  • (一)Mocha源码阅读: 项目结构及命令行启动
  • (原創) 系統分析和系統設計有什麼差別? (OO)
  • (转)mysql使用Navicat 导出和导入数据库
  • ***测试-HTTP方法
  • ***原理与防范
  • .[hudsonL@cock.li].mkp勒索病毒数据怎么处理|数据解密恢复
  • .NET 3.0 Framework已经被添加到WindowUpdate
  • .NET 发展历程
  • .NET 中让 Task 支持带超时的异步等待
  • .NetCore部署微服务(二)
  • @EnableConfigurationProperties注解使用
  • [C#]科学计数法(scientific notation)显示为正常数字
  • [CF543A]/[CF544C]Writing Code
  • [dfs] 图案计数
  • [Django 0-1] Core.Handlers 模块
  • [flask] flask的基本介绍、flask快速搭建项目并运行
  • [Foreman]解决Unable to find internal system admin account