当前位置：首页 > news >正文

Parquet文件格式详解（含行、列式存储区别）

news 来源：原创 2024/9/28 17:52:12

Parquet文件格式详解

Parquet 是一种列式存储格式，旨在高效地存储和处理大规模数据集。它被设计用于在大数据生态系统中进行数据存储和分析，如 Apache Hadoop 和 Apache Spark。

行式存储 vs 列式存储

在了解 Parquet 文件格式之前，先来对比一下行式存储和列式存储的特点：

（1）行式存储

行式存储将数据按行存储在磁盘上，即将同一行的所有字段值存储在一起。
适用于 OLTP（在线事务处理）场景，如数据库系统，其中通常需要快速地执行插入、更新和删除操作。
查询时需要读取整行数据，因此在分析性能上可能会受到影响，特别是当查询只涉及部分列时。

（2）列式存储

列式存储将数据按列存储在磁盘上，即将同一列的所有数值存储在一起。
适用于 OLAP（在线分析处理）场景，如数据仓库和大数据分析平台，其中通常需要执行复杂的查询和聚合操作。
查询时只需读取所需的列，因此在分析性能上通常比行式存储更高效，特别是当查询只涉及部分列时。

（3）示例
数据集：用户ID、用户名、年龄、性别和所在城市。比较使用行式存储和列式存储时数据的存储方式。

原始数据集：

用户ID	用户名	年龄	性别	城市
1	Alice	30	F	New York
2	Bob	35	M	London
3	Charlie	25	M	Paris
4	Diana	40	F	Tokyo

行式存储：

在行式存储中，数据按行存储在磁盘上，即每一行的数据作为一个整体存储。

存储方式：

1, Alice, 30, F, New York
2, Bob, 35, M, London
3, Charlie, 25, M, Paris
4, Diana, 40, F, Tokyo

列式存储：

在列式存储中，数据按列存储在磁盘上，即每一列的数据作为一个整体存储。

存储方式：

用户ID	1	2	3	4
用户名	Alice	Bob	Charlie	Diana
年龄	30	35	25	40
性别	F	M	M	F
城市	New York	London	Paris	Tokyo

对比分析：

1.在行式存储中，数据按行存储，因此在查询时需要读取整行数据。

2.在列式存储中，数据按列存储，因此在查询时只需要读取所需的列，例如，如果我们只需要查询用户的年龄，那么只需要读取年龄列，而不需要读取其他列，这提高了查询效率。

在大规模数据集的情况下，列式存储通常比行式存储更有效，特别是对于需要分析大量数据的情况，因为它可以减少磁盘 I/O 操作，提高查询性能。而 Parquet 文件格式正是基于列式存储的这些优势而设计的，因此在处理大规模数据集时非常受欢迎。

Parquet 文件格式特点

（1）列式存储

Parquet 将数据按列存储，而不是按行存储。这意味着每个列的数值被存储在一起，这种存储方式使得查询只需读取必要的列，从而提高了查询效率。
此外，列式存储还使得数据压缩更为有效，因为相似的值通常会连续出现在一列中，从而增加了压缩比。

（2）压缩

Parquet 使用多种压缩算法来减小文件大小，包括 Snappy、Gzip、LZO 等。
这使得 Parquet 文件在存储时占用更少的磁盘空间，并且在传输过程中更加高效。

（3）嵌套数据结构

Parquet 支持嵌套数据结构，可以处理复杂的数据类型，如数组、结构体等。
这使得 Parquet 在处理半结构化数据时具有很强的灵活性。

（4）元数据存储

Parquet 文件中包含了丰富的元数据信息，包括数据类型、压缩类型、列统计信息等。
这些元数据信息使得 Parquet 文件能够被快速而准确地解析，提高了数据的处理效率。

Parquet 文件格式的优势

高性能：由于采用了列式存储，Parquet 文件在查询和分析大规模数据时具有很高的性能。
高压缩比：列式存储使得相似的数值在一列中连续出现，从而增加了压缩比，减小了存储空间和传输成本。
灵活性：Parquet 文件格式支持复杂的数据类型和嵌套数据结构，适用于处理各种类型的数据。
与大数据生态系统的集成：Parquet 文件格式被广泛应用于 Apache Hadoop 和 Apache Spark 等大数据处理平台，与大数据生态系统无缝集成，为大规模数据分析提供了便利。

相关文章：

react通过上下文深入传递数据

嵌入式进阶——LED呼吸灯(PWM)

封装 UpdateManager 实现启动微信小程序时自动强制更新

Python | 一文搞定列表推导式

微信小程序源码-基于Java后端的小区租拼车管理信息系统毕业设计(附源码+演示录像+LW)

web学习笔记（五十六）

windows 7 10 11快捷键到启动页面

对systemverilog/verilog中forever语法的理解

【实战JVM】-基础篇-03-Java内存结构

mybatis 注解式 XML式通用mapper(tk-mybatis)使用

Spring AOP源码分析

基于MetaGPT构建LLM多智能体

c++ using 关键字

React 路由5版本的使用详解(基于Class类版本的使用react-router-dom@5)

【编译原理复习笔记】中间语言

【vuex入门系列02】mutation接收单个参数和多个参数

Electron入门介绍

flask接收请求并推入栈

Js基础知识（四） - js运行原理与机制

js数组之filter

js中的正则表达式入门

mysql_config not found

python docx文档转html页面

python3 使用 asyncio 代替线程

SAP云平台运行环境Cloud Foundry和Neo的区别

tweak 支持第三方库

技术攻略】php设计模式(一)：简介及创建型模式

简单基于spring的redis配置(单机和集群模式)

快速体验 Sentinel 集群限流功能，只需简单几步

如何用vue打造一个移动端音乐播放器

入口文件开始，分析Vue源码实现

使用 5W1H 写出高可读的 Git Commit Message

微信小程序--------语音识别（前端自己也能玩）

正则学习笔记

400多位云计算专家和开发者，加入了同一个组织 ...

Linux权限管理(week1_day5)--技术流ken

#WEB前端（HTML属性）

#面试系列-腾讯后端一面

（14）学习笔记：动手深度学习（Pytorch神经网络基础）

（AtCoder Beginner Contest 340） -- F - S = 1 -- 题解

(C++20) consteval立即函数

（多级缓存）多级缓存

(附源码)springboot家庭装修管理系统毕业设计 613205

(官网安装) 基于CentOS 7安装MangoDB和MangoDB Shell

（六） ES6 新特性 —— 迭代器（iterator)

(原创)攻击方式学习之(4) - 拒绝服务(DOS/DDOS/DRDOS)

（转）memcache、redis缓存

.a文件和.so文件

.bat批处理（二）：%0 %1——给批处理脚本传递参数

.htaccess配置常用技巧

.NET 4 并行（多核）“.NET研究”编程系列之二从Task开始

.NET Framework 4.6.2改进了WPF和安全性

.net 调用海康SDK以及常见的坑解释

.NET/C# 利用 Walterlv.WeakEvents 高性能地中转一个自定义的弱事件（可让任意 CLR 事件成为弱事件）

.NET/C# 使用 ConditionalWeakTable 附加字段（CLR 版本的附加属性，也可用用来当作弱引用字典 WeakDictionary）