当前位置: 首页 > news >正文

Google Cloud Platform数据工程简介

Google Cloud Platform数据工程简介

前言

云计算的出现为数据驱动型组织提供了采用成本效益高且可扩展的数据工程解决方案的机会。在云服务提供商中,Google Cloud Platform (GCP) 是近年来表现优异的领导者之一。GCP的增长被归因于其在企业和初创公司中的日益普及,以及在全球系统集成商中的三位数增长。除了作为可扩展基础设施的全球领导者,GCP相较于竞争对手的一个关键差异点在于其对开源技术的支持。此外,Google在全球范围内的网络优化专业知识,使得GCP成为延迟敏感型用例(如数据流、数据分析和机器学习应用)的理想选择。

在这里插入图片描述

数据存储

截至2024年,我们每天生成的海量数据达到330百万TB。这些数据可以是结构化、非结构化、关系型、非关系型等。GCP根据存储需求提供了一系列服务,确保无缝扩展和功能,所有存储服务默认提供静态和传输中的加密。

Google Cloud Storage

GCS是一种对象存储服务,适用于存储图像、视频、非结构化文件以及长期存档和合规性数据存储。它支持最大单元大小为5 TB,具有对象版本控制和细粒度权限等功能,并支持基于规则的生命周期管理。

Firestore

Firestore是一种完全托管的NoSQL文档数据库,支持TB级别的存储和强一致性,常用于构建支持实时应用程序的数据库。

BigQuery

BigQuery是一个完全托管的关系型数据仓库,适合使用SQL进行数据探索和分析,支持批处理和流数据的摄取,是高级大数据分析的常见选择。

Bigtable

Bigtable是一种适用于低延迟工作负载的NoSQL宽列数据库,常用于存储和访问时间序列数据,并支持操作分析、机器学习和用户面对的应用程序。

Spanner

Spanner是一种全球范围内完全托管的关系型SQL数据库,具有强一致性、水平可扩展性和高可用性,常用于需求高实时请求的行业如银行、游戏和零售。

Cloud SQL

Cloud SQL是一种完全托管的关系型SQL数据库,支持MySQL、PostgreSQL和MSSQL。结合Google的数据库迁移服务,Cloud SQL降低了现有数据库迁移的障碍。

数据处理和转换

数据处理和转换涉及从源数据提取、对数据进行处理并转换为适合下游使用的形态。GCP提供了一些常用的服务来实现这些操作。

Dataflow

Dataflow是一个完全托管的水平可扩展的统一流和批处理服务,执行Apache Beam管道,减少运行Beam管道的操作开销。

Dataproc

Dataproc是一个管理Apache Hadoop和Apache Spark工作负载的服务,允许用户根据需求管理集群,并与GCP服务集成。

Dataform

Dataform是一个完全托管的服务,允许数据工程师和分析师使用SQL进行数据转换,支持版本控制和数据质量测试。

消息服务

在数据工程中,消息服务用于实时数据的移动。GCP提供了Pub/Sub,一个异步、可扩展且灵活的消息服务,支持在应用和服务之间发送和接收消息。

工作流编排

在构建批处理数据管道时,工作流编排是必需的。GCP的Cloud Composer是一个完全托管的服务,设计用于编排数据工程工作流,基于Apache Airflow项目。

数据分析

数据分析通过利用上游数据工程工作流的整理数据,为业务提供有意义的见解。

Looker Studio

Looker Studio是一个综合分析平台,允许将数据转化为引人注目的仪表板和报告,支持SQL进行高级分析。

Looker

Looker提供丰富的功能来增强分析工作流,通过LookML进行集中定义和管理业务规则,并共享给整个组织。

数据治理和管理

数据治理和管理涉及建立围绕数据的政策和程序,并执行这些政策和程序。GCP的Dataplex提供了一个集中平台来发现、管理、监控和治理企业内的数据。

结论

GCP的数据工程服务提供了一系列丰富的工具和解决方案,满足现代数据驱动型组织的多样需求。从数据存储、处理和转换到消息服务、工作流编排、数据分析以及数据治理和管理,GCP提供了一个全面的生态系统,帮助企业构建可扩展且高效的数据管道。

通过理解独特的需求,评估GCP上的可用工具和服务,并战略性地利用它们来推动业务价值和创新,企业可以自信地开始他们的数据工程之旅。

相关文章:

  • 网页隐藏版之一行小说阅读器
  • Pycharm软件Win 64位安装包+详细安装步骤 百度云
  • Window下安装Zookeeper
  • MYSQL存储引擎InnoDB, MyISAM简介
  • 高精度-----乘法
  • go--互斥锁
  • Linux发展史
  • Servlet生命周期
  • WiFi通信——STM32通过ESP8266-01S与阿里云通信
  • Elasticsearch:Golang ECS 日志记录 - Logrus
  • 总结
  • Redis在SpringBoot中遇到的问题:预热,雪崩,击穿,穿透
  • kafka基础介绍
  • 卷与nfs实现多台主机容器之间的数据共享
  • 十、Docker版Redis集群搭建
  • Android Volley源码解析
  • android图片蒙层
  • Apache Spark Streaming 使用实例
  • CentOS7简单部署NFS
  • Essential Studio for ASP.NET Web Forms 2017 v2,新增自定义树形网格工具栏
  • js 实现textarea输入字数提示
  • Mybatis初体验
  • MySQL用户中的%到底包不包括localhost?
  • NLPIR语义挖掘平台推动行业大数据应用服务
  • RxJS 实现摩斯密码(Morse) 【内附脑图】
  • Spring Cloud Feign的两种使用姿势
  • Terraform入门 - 3. 变更基础设施
  • Twitter赢在开放,三年创造奇迹
  • Web设计流程优化:网页效果图设计新思路
  • WePY 在小程序性能调优上做出的探究
  • 百度小程序遇到的问题
  • 从0实现一个tiny react(三)生命周期
  • 得到一个数组中任意X个元素的所有组合 即C(n,m)
  • 动态魔术使用DBMS_SQL
  • 机器学习学习笔记一
  • 记一次删除Git记录中的大文件的过程
  • 码农张的Bug人生 - 见面之礼
  • 浅析微信支付:申请退款、退款回调接口、查询退款
  • 算法---两个栈实现一个队列
  • 用Node EJS写一个爬虫脚本每天定时给心爱的她发一封暖心邮件
  • 正则学习笔记
  • 转载:[译] 内容加速黑科技趣谈
  • ​VRRP 虚拟路由冗余协议(华为)
  • #android不同版本废弃api,新api。
  • #Z0458. 树的中心2
  • (17)Hive ——MR任务的map与reduce个数由什么决定?
  • (第27天)Oracle 数据泵转换分区表
  • (附源码)apringboot计算机专业大学生就业指南 毕业设计061355
  • (附源码)springboot炼糖厂地磅全自动控制系统 毕业设计 341357
  • (附源码)springboot猪场管理系统 毕业设计 160901
  • (附源码)计算机毕业设计SSM疫情居家隔离服务系统
  • (附源码)计算机毕业设计SSM智能化管理的仓库管理
  • (六)库存超卖案例实战——使用mysql分布式锁解决“超卖”问题
  • (原創) 如何讓IE7按第二次Ctrl + Tab時,回到原來的索引標籤? (Web) (IE) (OS) (Windows)...
  • (转)es进行聚合操作时提示Fielddata is disabled on text fields by default