当前位置：首页 > news >正文

太忙没空去看湖景？来看阿里云DLA如何快速构建数据湖

news 来源：原创 2024/5/7 4:33:59

一、数据湖方案的价值

数据湖方案相比较数据库、数据仓库、Hadoop等，数据湖要处理的数据类型更加开放、更加复杂。数据湖主要是对海量的结构化、半结构化、非结构化、二进制数据进行存储，同时还需要对这些数据进行管理和价值挖掘。接下来可以看下云上沉淀的典型数据湖方案：

方案一：一站式端到端数据湖存储、管理、分析&计算方案

场景：企业在构建数据湖方案时，期望构建完整、通用、可扩展的解决方案，。
方案价值：满足数据摄入、数据存储、数据管理、数据价值挖掘一体化能力。

方案一.png

方案二：OSS 大规模数据（自由编程）清洗&机器学习方案

场景：企业对存储在OSS上面的大规模数据需要进行多种计算负载处理。
方案价值：Serverless Spark完全弹性；原生支持Spark全部生态能力。

spark方案.jpg

方案三：不同类型数据源联邦查询分析方案

场景：期望MySQL、MongoDB等数据库的数据和存储在OSS上面的行为日志数据进行关联分析。
方案价值：DLA Serverless SQL(兼容Presto)支持15种以上的数据源的联邦分析。

方案三.png

二、构建数据湖方案面临的挑战

上面的两个数据湖方案是各大企业在阿里云上面通过实践沉淀下来的。当前企业在落地数据湖方案具体会遇到的挑战主要包括：

如何构建数据的统一管理视图？
如何构建多租户的权限管理？
如何自动化的构建元数据？
如何简单的进行数据入湖？

结合用户的这些挑战和痛点，阿里云数据湖分析服务DLA的数据湖管理功能可以有效的提高构建数据湖的效率，接下来一起把这些功能玩转起来吧

三、DLA高效的数据湖管理功能

阿里云数据湖分析服务DLA的数据湖管理功能定位为帮助用户构建统一、安全、高效、开放的数据湖解决方案。从下面的数据湖方案整体架构图可以看出：

存储对接：数据湖管理向下管理好数据湖存储的数据；
分析与计算支持：数据湖管理向上为多种数据湖计算引擎提供统一的元数据系统。

数据湖管理概括.png

数据湖管理核心功能包括：元数据管理、元数据爬取、数据入湖、实时数据湖。下面一起来看下这些功能是如何高效的帮助构建数据湖的。

3.1 元数据管理

为了对数据湖的数据进行安全的管理和挖掘价值，需要一套同时具备基本管理能力、多租户权限管理能力、扩展能力、开放能力的统一元数据系统。阿里云数据湖分析服务DLA的元数据系统具备这些能力。

3.1.1 DLA元数据管理介绍

下面是数据湖分析服务DLA的元数据管理系统的架构图，整个元数据管理包含四个层次：存储层、核心服务层、接入层、生态层。

元数据管理介绍.png

3.1.2 DLA元数据管理上手

1) 可视化全局管理视图：支持“创建Schema”、查看库表信息、查询数据等。

元数据管理页面.png

2) 创建元数据：支持元数据爬取、数据入湖、SQL手动创建、SQL自动创建等

3) 权限管理：目前支持通过JDBC进行权限的GRANT和REVOKE，通过阿里云OpenAPI也在研发中。

3.2 元数据爬取

用户基于OSS进行数据湖存储时，数据具有规模大、格式丰富、动态变化、非结构化字段多的特点，这种情况下手动创建的可行性及成本会比较高。

3.2.1 DLA元数据爬取介绍

元数据爬取功能可以自动为OSS上面的数据文件创建及更新数据湖元数据，方便分析和计算。

自动探索格式：自动探索文件数据字段及类型、自动映射目录和分区；
增量发现：自动感知新增列及分区；
规模扩展：数据爬取任务可以自动弹性伸缩资源来保证元数据爬取任务端到端的延迟；
成本：免费使用。

元数据爬取.png

3.2.2 DLA元数据爬取10分钟上手

使用DLA的元数据爬取可以通过DLA的控制台：

创建任务：左侧选择要爬取的具体OSS路径，右侧配置爬取的元数据要存储到DLA元数据系统的Schema名称即可，其他高级选项根据实际需求调整。

元数据爬取创建.png

任务管理：支持查看任务的运行状态、配置的修改、跳转到DLA的SQL窗口进行快速的数据查询。

元数据爬取管理.png

3.3 数据入湖

企业期望对存储在消息中间件、Database的数据都有归档存储到数据湖OSS中进行统一计算分析。简单易用的数据入湖功能成为普遍的需求。

3.3.1 DLA数据入湖介绍

阿里云数据湖分析DLA的数据入湖包含DataBase一键建湖、实时数据湖两个重要功能。

1) DataBase一键建湖：主要支持全量、增量、多库合并三种模式，支持OLTP的MySQL、SQLServer、POLARDB等，同时支持NoSQL的mongoDB等；

一键建湖.png

2) 实时数据入湖：对于云kafka、Loghub等消息中间、数据库的CDC数据可以通过“实时数据入湖”方案构建数据湖。

全链路数据延迟可达分钟级别，打造T + 0 数据湖；一份数据存储在OSS，通过DLA Meta增量管理，降低存储成本低。

实时数据湖.png

3.3.2 Database一键建湖

使用一键建湖可以通过DLA的控制台，同时可以通过数据管理DMS进行。

创建一键建湖：左侧选择数据源，可以包括RDS、PolarDB、MongoDB、ECS自建数据库；右侧配置源库的验证信息，以及在DLA生成的元数据名称即可。

一键建湖创建.png

任务管理：对于周期运行的建湖任务可以进行全局的管理，以及对建好的湖进行分析。

数据入湖管理.png

四、推荐阅读

《企业数据湖》

本书旨在帮助你选择正确的大数据技术并使用Lambda架构模式来为企业构建自己的数据湖。

全书主要分为三部分：

第一部分介绍数据湖的概念、数据湖在企业中的重要性以及Lambda架构。
第二部分深入研究使用Lambda架构构建数据湖所需的主要技术组件，介绍流行的大数据技术，如Apache Hadoop、Sqoop、Flume、Flink和Elasticsearch等。
第三部分展示一些非常实用的数据湖落地建议，包括企业应如何建立一个真实的数据湖，以及提高数据湖运营效率所需的其他技术组件。第三部分最后还详细介绍了几个实际的用例，以及在企业内实现这些用例时应考虑的重要方面。

点击链接了解详情并购买