当前位置: 首页 > news >正文

Apache DolphinScheduler 【安装部署】

前言

        今天来学习一下 DolphinScheduler ,这是一个任务调度工具,现在用的比较火爆。

1、安装部署

1.0、准备工作

1.0.1、集群规划 

dolphinscheduler 比较吃内存,所以尽量给 master 节点多分配一点内存,桌面和虚拟机里能关的应用程序就关了 

hadoop102

master,worker
hadoop103worker
hadoop104worker

这里的 master 原本应该装至少两台(确保 HA),但是这里只是学习使用,考虑到内存的问题就只装一台了。 

1.0.2、前置工作 

三台节点全部安装 JDK1.8并配置环境变量、MySQL5.7+、Zookeeper3.4.6+、psmisc

# 没装 psmisc 的用下面的命令在三台节点都装一遍
sudo yum install -y psmisc

1.0.3、解压

注意:这里解压不是直接解压到安装目录,这只是一个临时目录,我们待会会用 dolphinscheduler 自带的一键部署脚本去分布式安装。这里需要把它安装在一个临时目录并进行一些配置。 

# 直接解压到当前目录 /opt/software
tar -zxvf apache-dolphinscheduler-2.0.5-bin

手欠?

 如果安装过程中手欠不小心用 root 用户上传的软件包,需要重新修改一下软件包或者已安装的目录的所有者和所属组,不然后患无穷(安装或者启动过程得反复输入用户密码!):

chown -R 用户名 dolphinscheduler的安装目录chgrp -R :用户组 dolphinscheduler的安装

1.1、创建数据库及用户

# 创建数据库
CREATE DATABASE dolphinscheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
# 创建用户
CREATE USER 'dolphinscheduler'@'%' IDENTIFIED BY 'dolphinscheduler';
# 如果报错:ERROR 1819 (HY000): Your password does not satisfy the current policy requirements 就执行下面的配置:
# 设置密码强度为 0 (只校验长度,强度1和2还会校验密码内容)
set global validate_password_policy=0;
# 设置密码最低长度
set global validate_password_length=4;
# 赋予 dolphinscheduler 用户操作 dolphinscheduler 数据库的权限
grant all privileges on dolphinscheduler.* to 'dolphinscheduler'@'%';
# 刷新权限
flush privileges;

1.2、配置一键部署脚本

这里配置省略,配置还是比较简单的,看着注释就可以自己配置。

1.3、初始化数据库

拷贝 mysql 驱动(我用的 8.0.16版本的)到 dolphinscheduler lib 目录下,虽然我的数据库是 5.7.31 但是这个驱动是向下兼容的。 

script/create-dolphinscheduler.sh

1.4、一键部署

先启动 Zookeeper 和 Hadoop,然后:

./install.sh

安装好之后,dolphinscheduler 自动就启动了,可以跳过步骤 5 ,直接去看 Web UI。 

1.5、启动/停止 dolphinScheduler 服务

注意尽量在启动的时候使用 ./ 标识是当前路径下的 start-all.sh 或者 stop-all.sh 防止和 hadoop 的启停命令混淆!

./start-all.sh
./stop-all.sh

 bin 目录下还有一个脚本叫做 dolphinscheduler-daemon.sh ,可以直接调用查看它的使用方法:

[lyh@hadoop102 bin]$ ./dolphinscheduler-daemon.sh 
Usage: dolphinscheduler-daemon.sh (start|stop|status) <api-server|master-server|worker-server|alert-server|standalone-server|python-gateway-server>

我们可以通过参数来指定启动或者关闭某个特定的服务:

./dolphinscheduler-daemon.sh start master-server

1.6、查看 UI 界面

打开:

http://hadoop102:12345/dolphinscheduler

2、基本使用

2.1、安全配置中心

2.1.1、Yarn 队列管理

        这里地方有一个 “创建队列” 按钮,但是它并不会帮我们在 Yarn 中创建队列,而是在这里创建一个队列供我们的任务指定(在 Yarn 上运行任务需要指定在哪个队列里跑),这里创建的队列必须对应 Yarn 上得存在,不然会报错!

        只有 MR 、Spark 、Flink 等程序需要 “队列” 参数才使用。

2.1.2、租户管理

        能够为多个用户提供相互隔离的资源服务就称为多租户的服务(比如我们的 HDFS、Yarn 都是可以被多个用户一起使用的) 。DolphinScheduler 在帮我们向 Yarn 中提交任务的时候也需要有身份(用户)才能提交。

注意:这里租户指的是我们 DolphinScheduler 的 Worker 节点的租户,因为最终任务是 Worker 去提交任务的,每个 Worker 在不同的节点上,所以将来提交任务的时候,该 Worker 节点得有该用户才行。

        如果提交任务后,发现并没有这个 linux 用户,默认会任务失败。但是也可以通过配置 workers.properties 文件中的 worker.ernant.auto.create=true(默认为 false)实现当 linux 中不存在该用户时,自动创建该用户。这个参数要求启动 worker 进程的用户具备免密运行 sudo 命令的权限。

2.1.3、用户管理

        用户对应的是 DolphinScheduler 的用户,用于登录 DolphinScheduler。用户分为管理员和普通用户两种。

管理员有授权和用户管理的权限,但是没有创建项目和工作流定义的操作权限。

普通用户可以创建项目和对工作流定义的创建、编辑、执行等操作。

注意:当前的安全中心的配置,只能管理员用户来操作!

2.1.4、告警组管理和告警实例管理

关系:一个告警组可以包含多个告警实例。

        一个告警实例中包含一个接受告警信息的人的信息,比如微信、钉钉、飞书、邮件等。一个告警组包含很多个告警实例,所以当我们的任务出现问题的时候,该任务指定的告警组的所有告警实例都会收到消息。

2.1.5、Worker 分组管理

一个 Worker 可以属于不同的分组(注意:这里的组名 default 和我们的Yarn没有半毛钱关系,它只是在我们没有指定组名时的一个默认分组,就像我们的Kafka消费者组)。

同样,我们也可以通过设置 worker.properties 配置文件来添加或修改 worker 组。

2.1.6、环境管理

        这里指的是 Worker 运行任务时的环境,比如我们在执行一个 Hive 命令的时候(hive -e insert overwrite table xxx select xxx),我们的脚本需要导入环境变量,不然找不到这个命令(比如 hive 脚本需要导入 hive 的bin目录到 PATH 中)。

        这样,一个 worker 组就有了多个不同环境的 worker 节点,到时候跑任务的时候我们就可以直接找一个具有该执行所需环境的节点即可。

2.1.7、令牌管理

        令牌用于通过接口访问 DolphinScheduler 各项服务时的用户验证。我们普通用户通过 UI 访问 DolphinScheduler 的时候不需要令牌。但是如果通过第三方接口去访问就必须使用令牌了。

相关文章:

  • 四级英语翻译练习4.4
  • 【简单讲解下Tauri】
  • Flask Python:数据库多条件查询,flask中模型关联
  • FLink学习(三)-DataStream
  • 零长数组,whatwhy
  • Java面试宝典
  • JS-11A/11时间继电器 板前接线 JOSEF约瑟
  • 详细介绍如何利用 A star(A*)算法解决8数码问题
  • 基于Java,SSM,html,Vue在线视频播放管理系统网站设计
  • Windows通过git配置github代码仓库全流程
  • Android compose 使用指纹验证
  • GDAL升级到3.0之后遇到的坑
  • MySQL与SQLite区别
  • 【Frida】【Android】 07_爬虫之网络通信库HttpURLConnection
  • 【并发编程】CountDownLatch
  • JavaScript-如何实现克隆(clone)函数
  • 07.Android之多媒体问题
  • android图片蒙层
  • dva中组件的懒加载
  • ECMAScript入门(七)--Module语法
  • golang中接口赋值与方法集
  • isset在php5.6-和php7.0+的一些差异
  • java取消线程实例
  • Mac转Windows的拯救指南
  • Phpstorm怎样批量删除空行?
  • python学习笔记 - ThreadLocal
  • Python语法速览与机器学习开发环境搭建
  • Spark in action on Kubernetes - Playground搭建与架构浅析
  • Swoft 源码剖析 - 代码自动更新机制
  • underscore源码剖析之整体架构
  • yii2权限控制rbac之rule详细讲解
  • zookeeper系列(七)实战分布式命名服务
  • 百度地图API标注+时间轴组件
  • 基于webpack 的 vue 多页架构
  • 入门到放弃node系列之Hello Word篇
  • 通过npm或yarn自动生成vue组件
  • 我这样减少了26.5M Java内存!
  • ​LeetCode解法汇总307. 区域和检索 - 数组可修改
  • ​软考-高级-系统架构设计师教程(清华第2版)【第15章 面向服务架构设计理论与实践(P527~554)-思维导图】​
  • #include到底该写在哪
  • #我与虚拟机的故事#连载20:周志明虚拟机第 3 版:到底值不值得买?
  • %check_box% in rails :coditions={:has_many , :through}
  • (+3)1.3敏捷宣言与敏捷过程的特点
  • (17)Hive ——MR任务的map与reduce个数由什么决定?
  • (2009.11版)《网络管理员考试 考前冲刺预测卷及考点解析》复习重点
  • (2022版)一套教程搞定k8s安装到实战 | RBAC
  • (Matalb时序预测)PSO-BP粒子群算法优化BP神经网络的多维时序回归预测
  • (数位dp) 算法竞赛入门到进阶 书本题集
  • (四)TensorRT | 基于 GPU 端的 Python 推理
  • (原創) 如何安裝Linux版本的Quartus II? (SOC) (Quartus II) (Linux) (RedHat) (VirtualBox)
  • (转)chrome浏览器收藏夹(书签)的导出与导入
  • .bashrc在哪里,alias妙用
  • .locked1、locked勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复
  • .NET Core中Emit的使用
  • .Net Web项目创建比较不错的参考文章