当前位置: 首页 > news >正文

数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比(Spark 引擎)

当前,业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake,和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试,那么本篇文章我们将回归到大数据最基础的场景,对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL,对这几种数据湖表格式的查询性能做一个全面的测试。

测试环境

我们选择使用 Aamzon EMR Serverless 作为测试的基础环境,版本选择 EMR 最新的 7.1.0。Spark 版本为 3.5.0。

Amazon EMR Serverless 已经集成了 Hudi,Iceberg,Delta Lake,所以我们直接使用集成的版本,而Paimon,是通过外部依赖使用的是 paimon-spark-3.5-0.8.1

测试数据是通过 TPC DS 工具生成好的 3TB 的 parquet 数据文件,我们把着 3TB 的文件分别以这几种表格式的类型写入各自的表中。
每张表的数量如下:

表名记录数
call_center48
catalog_page36000
catalog_returns432006840
catalog_sales4320004419
customer30000000
customer_address15000000
customer_demographics1920800
date_dim73049
household_demographics7200
income_band20
inventory1033560000
item360000
promotion1800
reason67
ship_mode20
store1350
store_returns864006076
store_sales8251110748
time_dim86400
warehouse22
web_page3600
web_returns215999442
web_sales2159391499
web_site66

每个表格式的版本

OTFVersion
Hudi0.14.1
Iceberg1.4.3
DeltaLake3.0.0
Paimon0.8.1

Spark 配置参数
--conf spark.dynamicAllocation.enabled=false
--conf spark.driver.cores=4
--conf spark.driver.memory=5g
--conf spark.executor.cores=4
--conf spark.executor.memory=6g
--conf spark.executor.instances=47

测试结果

我们分别在EMR Serverless 使用最大资源配置 400 vCPUs, 3000 GB memory, 20000 GB disk 运行了4 种OTF的查询测试,得到如下的结果,下图是每一个sql的执行时长,所以数值越小,说明查询用时越短。

在这里插入图片描述

测试过程中 Iceberg,Delta Lake 的SQL 是全部运行成功的
Hudi 在执行 q2,q3 失败
Paimon 在执行 q4,q5 失败,发现应该是在运行作业的时候,shuffle 数据导致磁盘空间不足,因此在启动 Paimon 作业的时候,在EMRServerless启动参数中,又单独添加了指定磁盘大小的参数 spark.emr-serverless.executor.disk=100g

通过上图,初步看到,Paimon 在 query 场景下的性能与其他集中 OTF 格式有一定差距。

将每种OTF的运行时长累加:
在这里插入图片描述

这样对比就更明显,Delta Lake 在 Spark 下的查询性能更优,着应该跟 spark 背后的 databrick 的优化有不小的关系, Iceberg 其次,第三是 Hudi。而 Paimon 表现最差,它的执行时长(5100+s)则超过了 Iceberg(2100+s) 的两倍,相比 Deltalake(1600+s)也有三倍的差距。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Ubuntu linux安装新版本go
  • 采用反相正基准电压电路的同相运算放大器(运放)
  • easyswoole/Hyperf开发的php系统 cpu超负荷定位排查
  • debian 实现离线批量安装软件包
  • Netty HTTP
  • kibana连接elasticsearch(版本8.11.3)
  • 为什么渲染农场渲染的是帧,而不是视频?
  • 小程序里面使用vant ui中的vant-field组件,如何使得输入框自动获取焦点
  • COMX-P2020、COMX-P1022 vxWorks系统开发主机
  • 1.Introduction to Spring Web MVC framework
  • 基于python的图像去水印
  • ArcGIS如何快速对齐两个图层
  • 为什么品牌需要做 IP 形象?
  • JAVA零基础学习1(CMD、JDK、环境变量、变量和键盘键入、IDEA)
  • 《系统架构设计师教程(第2版)》第11章-未来信息综合技术-06-云计算(Cloud Computing) 技术概述
  • [LeetCode] Wiggle Sort
  • Android Volley源码解析
  • JavaScript设计模式之工厂模式
  • JS笔记四:作用域、变量(函数)提升
  • Laravel 中的一个后期静态绑定
  • laravel5.5 视图共享数据
  • NSTimer学习笔记
  • php面试题 汇集2
  • Python_OOP
  • uva 10370 Above Average
  • Wamp集成环境 添加PHP的新版本
  • win10下安装mysql5.7
  • 关于for循环的简单归纳
  • 扑朔迷离的属性和特性【彻底弄清】
  • 前端攻城师
  • 深入浅出webpack学习(1)--核心概念
  • 王永庆:技术创新改变教育未来
  • 问题之ssh中Host key verification failed的解决
  • 想使用 MongoDB ,你应该了解这8个方面!
  • 一天一个设计模式之JS实现——适配器模式
  • ​iOS实时查看App运行日志
  • ## 1.3.Git命令
  • #我与Java虚拟机的故事#连载11: JVM学习之路
  • (01)ORB-SLAM2源码无死角解析-(66) BA优化(g2o)→闭环线程:Optimizer::GlobalBundleAdjustemnt→全局优化
  • (1)常见O(n^2)排序算法解析
  • (4)事件处理——(6)给.ready()回调函数传递一个参数(Passing an argument to the .ready() callback)...
  • (C++17) optional的使用
  • (Java)【深基9.例1】选举学生会
  • (Pytorch框架)神经网络输出维度调试,做出我们自己的网络来!!(详细教程~)
  • (Redis使用系列) Springboot 使用redis实现接口幂等性拦截 十一
  • (Spark3.2.0)Spark SQL 初探: 使用大数据分析2000万KF数据
  • (八)c52学习之旅-中断实验
  • (六)c52学习之旅-独立按键
  • (每日一问)计算机网络:浏览器输入一个地址到跳出网页这个过程中发生了哪些事情?(废话少说版)
  • (源码版)2024美国大学生数学建模E题财产保险的可持续模型详解思路+具体代码季节性时序预测SARIMA天气预测建模
  • (转) ns2/nam与nam实现相关的文件
  • (转)人的集合论——移山之道
  • .NET Compact Framework 3.5 支持 WCF 的子集
  • .Net Core/.Net6/.Net8 ,启动配置/Program.cs 配置
  • .net core开源商城系统源码,支持可视化布局小程序