当前位置: 首页 > news >正文

hive中常见参数优化总结

1.with as 的cte优化,一般开发中习惯使用with as方便阅读,但如果子查询结果在下游被多次引用,可以使用一定的参数优化手段减少表扫描次数
默认set hive.optimize.cte.materialize.threshold=-1;不自动物化到内存,一般可以设置为
set hive.optimize.cte.materialize.threshold=0;开启物化到内存操作,但执行时是否开启与3个条件相关
(1)子查询复杂程度
(2)下游对子查询的依赖程度
(3)子查询结果的数据大小

2.join相关优化,开启自动翻转join参数,并重新设定小表的限定值
set hive.auto.convert.join=true;
set hive.mapjoin.smalltable.filesize=50000000;

3.开启向量化查询优化,默认不开启,开启后可以批量读取数据,默认大小是1024条,也可以调整为更大
set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;

4.设定任务优先级
SET mapreduce.job.priority=VERY_HIGH;

5.hive自动优化参数设置,
set hive.stats.autogather=false;
set hive.stats.column.autogather=false;
参数用于控制Hive是否自动收集表和分区的统计信息、是否自动收集列的统计信息。统计信息可以帮助Hive的优化器更好地制定查询计划。
false意味着Hive不会自动收集统计信息。你需要手动运行ANALYZE TABLE命令来收集统计信息。
set hive.cbo.enable=false;
当 hive.cbo.enable 设置为 false 时,意味着Hive将不会使用CBO来优化查询计划。相反,Hive将使用一种称为“规则基础的优化器”(Rule-Based Optimizer,简称RBO)的方法来优化查询。RBO依赖于预定义的规则来重写或转换查询,而不是基于统计信息和成本评估来选择最佳的执行计划。

6.reduce相关优化参数
set hive.exec.reducers.max=9999;一般设置为集群中 Worker 节点数量的 2 到 3 倍。
set hive.exec.reducers.bytes.per.reducer=524288000;默认值是256MB

set hive.shuffle.compress=true;启用shuffle阶段的压缩操作
set hive.map.aggr=true;聚合函数可以应用于 Map 端,减少 Reduce 阶段的数据量和计算量,但对于不支持 Map 端聚合的聚合函数需要关闭。

相关文章:

  • 【LeetCode-简单】27.移除元素 - 数组与双指针法
  • 五种查看Spring容器中bean的方法
  • 面向对象编程入门:掌握C++类的基础(2/3):深入理解C++中的类成员函数
  • 防御保护课程笔记
  • 【小白学机器学习5】偏差bias, 方差,var 误差error, MSE, RMSE,MAE, MAPE, WMAPE
  • 【Python笔记-设计模式】状态模式
  • 在极狐GitLab 配置 SSL/https
  • oracle DG 原理
  • 一张照片一键换脸:无需数据集和训练 | 开源日报 No.186
  • flutter 学习(二)AS创建flutter项目,一直卡在create,特别慢
  • centos物理电脑安装过程(2024年1月)
  • Vue+SpringBoot打造音乐偏好度推荐系统
  • 本地快速部署谷歌开放模型Gemma教程(基于WasmEdge)
  • 美国高防服务器租用要点一般是什么?
  • CY8C42(1.PSoC4 Pioneer Kit开箱及基本使用)
  • AWS实战 - 利用IAM对S3做访问控制
  • codis proxy处理流程
  • CoolViewPager:即刻刷新,自定义边缘效果颜色,双向自动循环,内置垂直切换效果,想要的都在这里...
  • CSS中外联样式表代表的含义
  • iOS编译提示和导航提示
  • java小心机(3)| 浅析finalize()
  • JS字符串转数字方法总结
  • Linux学习笔记6-使用fdisk进行磁盘管理
  • Sequelize 中文文档 v4 - Getting started - 入门
  • Vue 动态创建 component
  • vue:响应原理
  • 爱情 北京女病人
  • 从零搭建Koa2 Server
  • 得到一个数组中任意X个元素的所有组合 即C(n,m)
  • 复习Javascript专题(四):js中的深浅拷贝
  • 近期前端发展计划
  • 离散点最小(凸)包围边界查找
  • 前端面试之闭包
  • 使用权重正则化较少模型过拟合
  • 王永庆:技术创新改变教育未来
  • 线性表及其算法(java实现)
  • 再谈express与koa的对比
  • Nginx实现动静分离
  • Unity3D - 异步加载游戏场景与异步加载游戏资源进度条 ...
  • 进程与线程(三)——进程/线程间通信
  • ​LeetCode解法汇总307. 区域和检索 - 数组可修改
  • #绘制圆心_R语言——绘制一个诚意满满的圆 祝你2021圆圆满满
  • #每天一道面试题# 什么是MySQL的回表查询
  • (1)Map集合 (2)异常机制 (3)File类 (4)I/O流
  • (4) PIVOT 和 UPIVOT 的使用
  • (C语言)字符分类函数
  • (Demo分享)利用原生JavaScript-随机数-实现做一个烟花案例
  • (板子)A* astar算法,AcWing第k短路+八数码 带注释
  • (一)【Jmeter】JDK及Jmeter的安装部署及简单配置
  • (一)pytest自动化测试框架之生成测试报告(mac系统)
  • (终章)[图像识别]13.OpenCV案例 自定义训练集分类器物体检测
  • (转) ns2/nam与nam实现相关的文件
  • (转)Linux下编译安装log4cxx
  • ****** 二 ******、软设笔记【数据结构】-KMP算法、树、二叉树
  • ***原理与防范