当前位置: 首页 > news >正文

太忙没空去看湖景?来看阿里云DLA如何快速构建数据湖

一、数据湖方案的价值

数据湖方案相比较数据库、数据仓库、Hadoop等,数据湖要处理的数据类型更加开放、更加复杂。数据湖主要是对海量的结构化、半结构化、非结构化、二进制数据进行存储,同时还需要对这些数据进行管理和价值挖掘。接下来可以看下云上沉淀的典型数据湖方案:

方案一:一站式端到端数据湖存储、管理、分析&计算方案

  • 场景:企业在构建数据湖方案时,期望构建完整、通用、可扩展的解决方案,。

  • 方案价值:满足数据摄入、数据存储、数据管理、数据价值挖掘一体化能力。

方案二:OSS 大规模数据(自由编程)清洗&机器学习方案

  • 场景:企业对存储在OSS上面的大规模数据需要进行多种计算负载处理。

  • 方案价值:Serverless Spark完全弹性;原生支持Spark全部生态能力。

方案三:不同类型数据源联邦查询分析方案

  • 场景:期望MySQL、MongoDB等数据库的数据和存储在OSS上面的行为日志数据进行关联分析。

  • 方案价值:DLA Serverless SQL(兼容Presto)支持15种以上的数据源的联邦分析。

二、构建数据湖方案面临的挑战

上面的两个数据湖方案是各大企业在阿里云上面通过实践沉淀下来的。当前企业在落地数据湖方案具体会遇到的挑战主要包括:

  • 如何构建数据的统一管理视图?

  • 如何构建多租户的权限管理?

  • 如何自动化的构建元数据?

  • 如何简单的进行数据入湖?

结合用户的这些挑战和痛点,阿里云数据湖分析服务DLA的数据湖管理功能可以有效的提高构建数据湖的效率,接下来一起把这些功能玩转起来吧

三、DLA高效的数据湖管理功能

阿里云数据湖分析服务DLA的数据湖管理功能定位为帮助用户构建统一、安全、高效、开放的数据湖解决方案。从下面的数据湖方案整体架构图可以看出:

  • 存储对接:数据湖管理向下管理好数据湖存储的数据;

  • 分析与计算支持:数据湖管理向上为多种数据湖计算引擎提供统一的元数据系统。

数据湖管理核心功能包括:元数据管理、元数据爬取、数据入湖、实时数据湖。下面一起来看下这些功能是如何高效的帮助构建数据湖的。

3.1 元数据管理

为了对数据湖的数据进行安全的管理和挖掘价值,需要一套同时具备基本管理能力、多租户权限管理能力、扩展能力、开放能力的统一元数据系统。阿里云数据湖分析服务DLA的元数据系统具备这些能力。

3.1.1 DLA元数据管理介绍

下面是数据湖分析服务DLA的元数据管理系统的架构图,整个元数据管理包含四个层次:存储层、核心服务层、接入层、生态层。

3.1.2 DLA元数据管理上手

1) 可视化全局管理视图:支持“创建Schema”、查看库表信息、查询数据等。


2) 创建元数据:支持元数据爬取、数据入湖、SQL手动创建、SQL自动创建等

3) 权限管理:目前支持通过JDBC进行权限的GRANT和REVOKE,通过阿里云OpenAPI也在研发中。

3.2 元数据爬取

用户基于OSS进行数据湖存储时,数据具有规模大、格式丰富、动态变化、非结构化字段多的特点,这种情况下手动创建的可行性及成本会比较高。

3.2.1 DLA元数据爬取介绍

元数据爬取功能可以自动为OSS上面的数据文件创建及更新数据湖元数据,方便分析和计算。

  • 自动探索格式:自动探索文件数据字段及类型、自动映射目录和分区;

  • 增量发现:自动感知新增列及分区;

  • 规模扩展:数据爬取任务可以自动弹性伸缩资源来保证元数据爬取任务端到端的延迟;

  • 成本:免费使用。

3.2.2 DLA元数据爬取10分钟上手

使用DLA的元数据爬取可以通过DLA的控制台:

  • 创建任务:左侧选择要爬取的具体OSS路径,右侧配置爬取的元数据要存储到DLA元数据系统的Schema名称即可,其他高级选项根据实际需求调整。

  • 任务管理:支持查看任务的运行状态、配置的修改、跳转到DLA的SQL窗口进行快速的数据查询。

3.3 数据入湖

企业期望对存储在消息中间件、Database的数据都有归档存储到数据湖OSS中进行统一计算分析。简单易用的数据入湖功能成为普遍的需求。

3.3.1 DLA数据入湖介绍

阿里云数据湖分析DLA的数据入湖包含DataBase一键建湖、实时数据湖两个重要功能。

1) DataBase一键建湖:主要支持全量、增量、多库合并三种模式,支持OLTP的MySQL、SQLServer、POLARDB等,同时支持NoSQL的mongoDB等;


2) 实时数据入湖:对于云kafka、Loghub等消息中间、数据库的CDC数据可以通过“实时数据入湖”方案构建数据湖。

全链路数据延迟可达分钟级别,打造T + 0 数据湖;一份数据存储在OSS,通过DLA Meta增量管理,降低存储成本低。

3.3.2 Database一键建湖

使用一键建湖可以通过DLA的控制台,同时可以通过数据管理DMS进行。

  • 创建一键建湖:左侧选择数据源,可以包括RDS、PolarDB、MongoDB、ECS自建数据库;右侧配置源库的验证信息,以及在DLA生成的元数据名称即可。

  • 任务管理:对于周期运行的建湖任务可以进行全局的管理,以及对建好的湖进行分析。

四、推荐阅读

《企业数据湖》

本书旨在帮助你选择正确的大数据技术并使用Lambda架构模式来为企业构建自己的数据湖。

全书主要分为三部分:

  • 第一部分介绍数据湖的概念、数据湖在企业中的重要性以及Lambda架构

  • 第二部分深入研究使用Lambda架构构建数据湖所需的主要技术组件,介绍流行的大数据技术,如Apache Hadoop、Sqoop、Flume、Flink和Elasticsearch等。

  • 第三部分展示一些非常实用的数据湖落地建议,包括企业应如何建立一个真实的数据湖,以及提高数据湖运营效率所需的其他技术组件。第三部分最后还详细介绍了几个实际的用例,以及在企业内实现这些用例时应考虑的重要方面。

点击链接了解详情并购买

更多精彩回顾

书讯 |9月书讯(下)| 开学季,读新书

书讯 |9月书讯(上)| 开学季,读新书

资讯 |TIOBE 9 月编程语言:C++ 突起、Java 流行度下降

上新 | 一本书带你吃透Nginx应用与运维
书单 | 开学季——计算机专业学生必读的10本畅销经典

干货 | 用户画像从0到100的构建思路

收藏 | 更新!更薄!更精华:《JavaScript编程精解》来了

视频 | 4min视频带你了解阿里B2B电商算法

赠书 |【第20期】实践深度学习?先接住这三板斧再说

点击阅读全文购买

相关文章:

  • 【第21期】以实际项目作驱动,换种方式学Java
  • 确定了!图灵奖得主John Hennessy将来CNCC 2020做特邀报告!
  • Webpack优化——将你的构建效率提速翻倍
  • 用 Python 画哆啦 A 梦
  • 红帽资深解决方案架构师魏新宇:云原生应用构建之路
  • 为什么Spark能成为最火的大数据计算引擎?它是怎样工作的?
  • 主题沙龙 | 订阅模式和SaaS 行业的未来
  • 程序员过关斩将——应对高并发系统有没有通用的解决方案呢?
  • 8个流行的Python可视化工具包,总有一款适合你
  • 20张图片梳理工业软件全貌
  • 使用pandas进行数据快捷加载
  • 大数据必备的十大工具
  • SpringBoot基于jar包启动核心原理及流程详解
  • 【第22期】网络安全在身边|最强学习书单整理
  • 从“新基建”重新认识数据中心
  • [笔记] php常见简单功能及函数
  • 《网管员必读——网络组建》(第2版)电子课件下载
  • 〔开发系列〕一次关于小程序开发的深度总结
  • C++回声服务器_9-epoll边缘触发模式版本服务器
  • C++类的相互关联
  • CentOS7 安装JDK
  • css布局,左右固定中间自适应实现
  • Java 9 被无情抛弃,Java 8 直接升级到 Java 10!!
  • Java程序员幽默爆笑锦集
  • MaxCompute访问TableStore(OTS) 数据
  • mysql常用命令汇总
  • passportjs 源码分析
  • Rancher如何对接Ceph-RBD块存储
  • 给第三方使用接口的 URL 签名实现
  • 前嗅ForeSpider教程:创建模板
  • 如何进阶一名有竞争力的程序员?
  • 三栏布局总结
  • 它承受着该等级不该有的简单, leetcode 564 寻找最近的回文数
  • 网络应用优化——时延与带宽
  • 一个SAP顾问在美国的这些年
  • 赢得Docker挑战最佳实践
  • ###项目技术发展史
  • $L^p$ 调和函数恒为零
  • (二)斐波那契Fabonacci函数
  • (转)微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)...
  • ./include/caffe/util/cudnn.hpp: In function ‘const char* cudnnGetErrorString(cudnnStatus_t)’: ./incl
  • .bat批处理(二):%0 %1——给批处理脚本传递参数
  • .NET 材料检测系统崩溃分析
  • .Net+SQL Server企业应用性能优化笔记4——精确查找瓶颈
  • .netcore 如何获取系统中所有session_ASP.NET Core如何解决分布式Session一致性问题
  • .NET导入Excel数据
  • .skip() 和 .only() 的使用
  • @cacheable 是否缓存成功_让我们来学习学习SpringCache分布式缓存,为什么用?
  • @KafkaListener注解详解(一)| 常用参数详解
  • [ Linux ] git工具的基本使用(仓库的构建,提交)
  • [ vulhub漏洞复现篇 ] Apache Flink目录遍历(CVE-2020-17519)
  • [20150707]外部表与rowid.txt
  • [acwing周赛复盘] 第 94 场周赛20230311
  • [APIO2012] 派遣 dispatching
  • [AX]AX2012 SSRS报表Drill through action