当前位置: 首页 > news >正文

元数据管理gravitino学习

元数据管理的组成有几个部分:Metaservice(Gravitino)、Luoshu(amoro)、Hive Metastore,其中gravitino是数据管理模块实现元数据统一管理的核心。前面有提到hive metastore可以存储hive的库表元数据信息,可以用于存储关于hive表、列、分区等对象的信息,hive metastore通常使用关系型数据库比如mysql、postgreSQL,但是hive metastore本身没有任何治理能力,并且它的元数据模型完全是关系型的数据库模型,对于像Message、topic、文件这类半结构化、非结构化的数据基本是不匹配的。业界一直希望统一元数据,从而实现多产品间的一致体验:无论是数据开发、数据消费还是数据治理,所有用户都能基于一套元数据体系,可以在多个数据源和计算引擎之间建立联系,使用统一的服务来公开这些元数据。在这种情况下,Gravitino 非常有用。因为它提供了一个统一的元数据湖,标准化了数据目录操作,并统一了所有元数据管理和治理。它可以为多种数据源提供统一的元数据视图,管理不同来源、类型和区域的元数据,支持 Hive,Iceberg,MySQL,Fileset,Messaging 等类型的数据目录。

在数据管理中,采用gravitino来统一元数据视图,不再需要直接与hive metastore进行交互,进行更高效和统一的元数据管理。gravitino支持不同的目录来管理不同来源的元数据,包括iceberg、hive、mysql、kafka等。

“元数据湖”:在gravitino出现之前,业界还没有一个统一的“元数据湖”的组件,不同于数据湖,gravitino提出了“元数据湖”的概念,通过提供一个丰富的数据目录,Gravitino使得数据湖中的资源更加易于导航和理解。有个“元数据湖”之后,不再需要中心化地管理“数据”,而是中心化管理“元数据”。因为数据往往是难以汇集到一起的,而元数据更容易方便汇集到一起。

gravitino是什么:Gravitino 是一个高性能、地理分布、联合的元数据湖。它直接管理不同来源、类型和地区的元数据。它还为用户提供数据和 AI 资产的统一元数据访问。Gravitino 为用户提供了管理和治理元数据的 API,包括标准的元数据创建、更新和删除操作。同时,它还提供了以统一方式治理元数据的能力,包括访问控制、发现等。

同时gravitino支持多云上部署,不同云之间的gravitino可以进行数据共享, 在每一个gravitino节点上都可以管理底层异构数据源,包括数据湖和数据仓库、数据库的数据源等,核心特点包括:

1.在元数据意义上支持SSOT(单一可信数据源):确保不同体系之间数据都是相同,去除冗余数据

2.统一管理AI+Data元数据:对于AI和data都提供统一catalog去管理二者元数据

3.地理分布架构:支持数据不同物理分布,这样数据不需要搬迁到一个地方

4.统一安全管理:对数据统一权限管理等

5.多引擎支持:不仅支持数据引擎,如 Trino、spark、Apache Flink(开发中),还支持 AI/ML 框架,如 Tensorflow、PyTorch和

如下图:
在这里插入图片描述
概括言之,gravitino主要有两个作用:

(1)为多种数据源提供统一的元数据视图

(2)所有数据源进行统一权限管控。

gravitino的层级结构:
在这里插入图片描述

Metalake:元数据的顶层容器。通常一个组有一个metalake来管理其中所有的元数据。每个metalake对外暴露一个三级命名空间(catalog.schema.table)来组织数据。

catalog:catalog是来自特定元数据源的元数据的集合。每个目录都有一个相关的连接器来连接到特定的元数据源。在数据湖中,数据目录作为逻辑结构,可以组织、分类数据资产。

Schema:Schema 相当于数据库,Schema 仅存在于支持关系元数据源的特定目录中,例如 Apache Hive、MySQL、PostgreSQL 等。

Table表:支持关系元数据源的目录的对象层次结构中的最低级别。可以在目录中的特定架构中创建表。

Gravitino对外暴露 RESTful的 API接口,然后将用户的各种权限设置的请求,通过自身的逻辑以及模型的转换,通过插件透传给下游的各种不同的数据生态,从而达到让 Gravitino成为权限入口的效果。

用户可以使用三级坐标:catalog.schema.entity 来描述所有数据,并用于数据集成、联合查询等。

gravitino也提供了trino connector和spark connector,在 Trino 中配置 Gravitino connector后,Trino 可以自动从 Gravitino 加载目录元数据,让用户在 Trino 中直接访问这些目录。与 Gravitino 集成后,Trino 可以操作所有 Gravitino 数据,而无需额外配置。

用gravitino创建目录的实例:

// Assuming you have just created a metalake named `metalake`
GravitinoClient gravitinoClient = GravitinoClient.builder("http://127.0.0.1:8090").withMetalake("metalake").build();Map<String, String> hiveProperties = ImmutableMap.<String, String>builder()// You should replace the following with your own hive metastore uris that Gravitino can access.put("metastore.uris", "thrift://localhost:9083").build();Catalog catalog = gravitinoClient.createCatalog(NameIdentifier.of("metalake", "catalog"),Type.RELATIONAL,"hive", // provider, We support hive, jdbc-mysql, jdbc-postgresql, lakehouse-iceberg, etc."This is a hive catalog",hiveProperties); // Please change the properties according to the value of the provider.
// ...

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • C++笔记---类和对象(下)
  • css高级
  • Unity求向量和平面的交点
  • leetcode 括号类型题解
  • 常见分布式ID解决方案的优缺点
  • 什么是多组学整合
  • 数据采集-->kafka-->hdfs
  • web服务器相关知识
  • windows本地kafka和zookeeper单机版
  • 【Linux】系列入门摘抄笔记-8-权限管理chmod/chown
  • 【排序篇】插入排序与选择排序
  • LabVIEW优化内存使用
  • 运行微信小程序报错:Bad attr data-event-opts with message
  • 数据结构与算法 - 设计
  • Oracle(75)什么是统计信息(Statistics)?
  • css系列之关于字体的事
  • HTTP 简介
  • Laravel核心解读--Facades
  • Node + FFmpeg 实现Canvas动画导出视频
  • spring + angular 实现导出excel
  • SQLServer之创建数据库快照
  • webpack4 一点通
  • 创建一个Struts2项目maven 方式
  • 机器学习 vs. 深度学习
  • 离散点最小(凸)包围边界查找
  • 如何正确配置 Ubuntu 14.04 服务器?
  • 思考 CSS 架构
  • 为视图添加丝滑的水波纹
  • 一些css基础学习笔记
  • 优秀架构师必须掌握的架构思维
  • 源码安装memcached和php memcache扩展
  • 在Mac OS X上安装 Ruby运行环境
  • 栈实现走出迷宫(C++)
  • 分布式关系型数据库服务 DRDS 支持显示的 Prepare 及逻辑库锁功能等多项能力 ...
  • #、%和$符号在OGNL表达式中经常出现
  • (31)对象的克隆
  • (42)STM32——LCD显示屏实验笔记
  • (定时器/计数器)中断系统(详解与使用)
  • (附源码)计算机毕业设计高校学生选课系统
  • (十)c52学习之旅-定时器实验
  • (十三)Maven插件解析运行机制
  • (一) springboot详细介绍
  • (转)C#开发微信门户及应用(1)--开始使用微信接口
  • (转载)虚幻引擎3--【UnrealScript教程】章节一:20.location和rotation
  • .cfg\.dat\.mak(持续补充)
  • .Net Core webapi RestFul 统一接口数据返回格式
  • .net core webapi 部署iis_一键部署VS插件:让.NET开发者更幸福
  • .NET Core 将实体类转换为 SQL(ORM 映射)
  • .NET MAUI学习笔记——2.构建第一个程序_初级篇
  • .NET 中使用 Mutex 进行跨越进程边界的同步
  • .Net+SQL Server企业应用性能优化笔记4——精确查找瓶颈
  • .net操作Excel出错解决
  • .Net转Java自学之路—SpringMVC框架篇六(异常处理)
  • @ 代码随想录算法训练营第8周(C语言)|Day57(动态规划)
  • @antv/x6 利用interacting方法来设置禁止结点移动的方法实现。