当前位置: 首页 > news >正文

主流大数据调度工具DolphinScheduler之数据采集

 今天继续给大家分享主流大数据调度工具DolphinScheduler,以及数据的ETL流程。

一:调度工具DS

主流大数据调度工具DolphinScheduler,

其定位:解决数据处理流程中错综复杂的依赖关系

任务支持类型:支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。

二,数据ETL流程(调度流程)

今天分享一个把数据从人大金仓数据库采集到大数据hive的案例。

0,业务概念

数据采集:指的是从其他的数据库,Oracle,MySQL,kingbase里的数据同步到hive大数据。

采集原理:本次分享的数据采集,其底层实现逻辑是sqoop。

数据同步都是有严格的规范性。

1,先在数据库查询该表的数据信息

2,在hive里创建表以备数据同步用

红色方框里是从数据库同步过来的数据,

蓝色方框里是系统自动生成的数据。

3,确认hive该表暂无数据

4,首先创建工作流

5,配置工作流信息

6,参数设置

7,核心是脚本开发

注明源数据库系统名,数据库名,表名等。

sync_type = 1 是全量同步,传参到shell脚本里。

从其他数据库同步到hive大数据,名称都是有规范的。

可以看到target_tab_name,名字是由源系统名,源库名,源表名,给拼接起来的。

至于原理为什么说是sqoop,是因为sync_data_to_hive_ods.sh 里面调用的sqoop的数据同步方法。当然也可以在里面开发采用datax的数据同步方式。

8,执行之后,看日志

发现日志是成功的。

9,检查数据是否同步到hive数仓

10,仔细看看系统自动生成的数据长什么样


好啦,今天这篇主要介绍主流调度工具DS的数据采集的全流程,工作实战。

希望你看得尽兴,学得开心。不难,但很重要。

下次再见!

相关文章:

  • 移动硬盘在苹果电脑上使用后在windows中无法读取 Win和Mac的硬盘怎么通用
  • 如何通过成熟的外发平台,实现文档安全外发管理?
  • 快速认识EA(Enterprise Architecture)
  • JVM--HostSpot算法细节实现
  • 华为eNSP模拟器安装
  • 算法刷题笔记 八数码(C++实现)
  • 函数式编程面试题1:什么是合格的函数和有形的函数
  • [计算机网络] VPN技术
  • 实战案例:如何用ChatGPT生成适合不同领域的高质量文章
  • R绘制Venn图及其变换
  • 如何理解String的不可变性
  • React中的无状态组件:简约之美
  • React的usestate设置了值后马上打印获取不到最新值
  • 学习日志:volatile 关键字
  • Java | 自制AWT单词猜一猜小游戏(测试版)
  • 10个最佳ES6特性 ES7与ES8的特性
  • 2019.2.20 c++ 知识梳理
  • css的样式优先级
  • CSS实用技巧
  • FineReport中如何实现自动滚屏效果
  • gcc介绍及安装
  • java8 Stream Pipelines 浅析
  • javascript数组去重/查找/插入/删除
  • mac修复ab及siege安装
  • Mac转Windows的拯救指南
  • MyEclipse 8.0 GA 搭建 Struts2 + Spring2 + Hibernate3 (测试)
  • MYSQL如何对数据进行自动化升级--以如果某数据表存在并且某字段不存在时则执行更新操作为例...
  • ng6--错误信息小结(持续更新)
  • Python语法速览与机器学习开发环境搭建
  • SpingCloudBus整合RabbitMQ
  • 给github项目添加CI badge
  • 给Prometheus造假数据的方法
  • 前端_面试
  • 前端工程化(Gulp、Webpack)-webpack
  • 前端每日实战 2018 年 7 月份项目汇总(共 29 个项目)
  • 新手搭建网站的主要流程
  • 学习Vue.js的五个小例子
  • 你对linux中grep命令知道多少?
  • hi-nginx-1.3.4编译安装
  • ​【原创】基于SSM的酒店预约管理系统(酒店管理系统毕业设计)
  • ​批处理文件中的errorlevel用法
  • ​学习一下,什么是预包装食品?​
  • ‌移动管家手机智能控制汽车系统
  • ![CDATA[ ]] 是什么东东
  • "无招胜有招"nbsp;史上最全的互…
  • ## 1.3.Git命令
  • $.ajax,axios,fetch三种ajax请求的区别
  • (2024,RWKV-5/6,RNN,矩阵值注意力状态,数据依赖线性插值,LoRA,多语言分词器)Eagle 和 Finch
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第5节(封闭类和Final方法)
  • (仿QQ聊天消息列表加载)wp7 listbox 列表项逐一加载的一种实现方式,以及加入渐显动画...
  • (附源码)php投票系统 毕业设计 121500
  • (附源码)ssm经济信息门户网站 毕业设计 141634
  • (四) Graphivz 颜色选择
  • (一)Docker基本介绍
  • (一)Kafka 安全之使用 SASL 进行身份验证 —— JAAS 配置、SASL 配置