当前位置: 首页 > news >正文

dolphinscheduler 3.0.1数据质量

dolphinscheduler 3.0.1数据质量

  • 🐬环境配置
  • 🐬定义质量节点测试
    • 🐠运行失败
  • 🐬源码

🔼上一集:dolphinscheduler 3.0.1 资源中心

*️⃣主目录:dolphinscheduler 3.0.1功能梳理及源码解读

🔽下一集:dolphinscheduler 3.0.1 数据源中心

🐬环境配置


  • /worker-server/conf/dolphinscheduler_env.sh
    • SPARK_HOME2 :配置spark安装目录
    • HADOOP_USER_NAME:增加该变量,填写hadoop集群的部署用户(HADOOP_HOME等不需要配置,目前我是没遇到过)
      在这里插入图片描述
      org.apache.hadoop.security.AccessControlException): Permission denied: user=dolphin, access=WRITE
      
  • /worker-server/conf/common.properties
    • data-quality.jar.name=dolphinscheduler-data-quality-3.0.1-SNAPSHOT.jar :保持jar包名称和编译后的名称一致,默认为dolphinscheduler-data-quality-dev-SNAPSHOT.jar
  • 给执行租户赋权,添加hadoop部署用户组,比如租户dolphin,hadoop部署用户组为bigdata
    sudo usermod -a -G bigdata dolphin
    

🐬定义质量节点测试


直接对着官网操作吧,最开始官网资料还没有3.0,后来就不看了,貌似多走了一些路。

  • 校验公式:[校验方式][操作符][阈值],如果结果为真,则表明数据不符合期望,执行失败策略
  • 校验方式:
    • [Expected-Actual][期望值-实际值] [Actual-Expected][实际值-期望值]
    • [Actual/Expected][实际值/期望值]x100%
    • [(Expected-Actual)/Expected][(期望值-实际值)/期望值]x100%
  • 操作符:=、>、>=、<、<=、!=
  • 期望值类型: 固定值 日均值 周均值 月均值 最近7天均值 最近30天均值 源表总行数 目标表总行数
  • 例子:
    • 校验方式为:[Expected-Actual][期望值-实际值] [操作符]:> [阈值]:0 期望值类型:固定值=9。
    • 假设实际值为10,操作符为 >, 期望值为9,那么结果 10 -9 > 0 为真,那就意味列为空的行数据已经超过阈值,任务被判定为失败
      在这里插入图片描述

🐠运行失败


按理说应该成功才对,结果不会小于0的
在这里插入图片描述
错误信息:

[INFO] 2022-10-26 08:20:10.909 +0000 [taskAppId=TASK-20221026-7339496693088_2-471-499] TaskLogLogger-class org.apache.dolphinscheduler.plugin.task.dq.DataQualityTask:[205] - process has exited, execute path:/tmp/dolphinscheduler3/exec/process/7338799615584/7339496693088_2/471/499, processId:260177 ,exitStatusCode:1 ,processWaitForStatus:true ,processExitValue:1
[INFO] 2022-10-26 08:20:11.582 +0000 [taskAppId=TASK-20221026-7339496693088_2-471-499] TaskLogLogger-class org.apache.dolphinscheduler.plugin.task.dq.DataQualityTask:[63] -  -> 22/10/26 16:20:10 INFO Client: Application report for application_1658989604268_0102 (state: FAILED)
	22/10/26 16:20:10 INFO Client: 
		 client token: N/A
		 diagnostics: Application application_1658989604268_0102 failed 1 times (global limit =2; local limit is =1) due to ApplicationMaster for attempt appattempt_1658989604268_0102_000001 timed out. Failing the application.
		 ApplicationMaster host: N/A
		 ApplicationMaster RPC port: -1
		 queue: default
		 start time: 1666771787933
		 final status: FAILED
		 tracking URL: http://bigdata02:8088/cluster/app/application_1658989604268_0102
		 user: hadoop
	22/10/26 16:20:10 ERROR Client: Application diagnostics message: Application application_1658989604268_0102 failed 1 times (global limit =2; local limit is =1) due to ApplicationMaster for attempt appattempt_1658989604268_0102_000001 timed out. Failing the application.
	Exception in thread "main" org.apache.spark.SparkException: Application application_1658989604268_0102 finished with failed status
		at org.apache.spark.deploy.yarn.Client.run(Client.scala:1283)
		at org.apache.spark.deploy.yarn.YarnClusterApplication.start(Client.scala:1677)
		at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:955)
		at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:180)
		at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:203)
		at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:90)
		at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:1043)
		at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:1052)
		at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
	22/10/26 16:20:10 INFO ShutdownHookManager: Shutdown hook called
	22/10/26 16:20:10 INFO ShutdownHookManager: Deleting directory /tmp/spark-869c7fa1-4136-4458-8626-27961ce772e1
	22/10/26 16:20:10 INFO ShutdownHookManager: Deleting directory /tmp/spark-873afb0a-8352-48c7-981a-7be426e1c145
[INFO] 2022-10-26 08:20:11.582 +0000 [taskAppId=TASK-20221026-7339496693088_2-471-499] TaskLogLogger-class org.apache.dolphinscheduler.plugin.task.dq.DataQualityTask:[57] - FINALIZE_SESSION

在这里插入图片描述
测试用的spark是3.2版本,不知道报错是不是这个原因,暂时没时间研究了,有知道的欢迎指教
在这里插入图片描述

🐬源码


在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
简单过了下,不深究了,后面还会单独研究后台核心代码、

相关文章:

  • 【vue后台管理系统】基于Vue+Element-UI+ECharts开发通用管理后台(上)
  • 【产品新体验】CSDN. 云IDE体验与使用教程
  • 毕业设计 基于51单片机老人防跌倒GSM短信报警系统
  • 实验十四:雨滴传感器实验
  • 【面试官说实现一个顺序表,但听到要求后我沉默了】
  • jquery导航图片全屏滚动、首页全屏轮播图,各式相册
  • 相对于java,C++中的那些神奇语法
  • 元宇宙系列之AI虚拟人:“人”潮汹涌 探路未来
  • Selenium基础 — Selenium操作浏览器窗口滚动条
  • 前端经典面试题 | 闭包的作用和原理
  • python+opencv实现人脸微整形
  • 分类-朴素贝叶斯(高斯、多项式、伯努利)
  • Windows10搭建ASP服务器
  • IPv中的地域分布
  • 基于ssm红联小区果蔬销售网站的设计与实现-计算机毕业设计源码+LW文档
  • [PHP内核探索]PHP中的哈希表
  • hexo+github搭建个人博客
  • CSS相对定位
  • Cumulo 的 ClojureScript 模块已经成型
  • github指令
  • JavaScript DOM 10 - 滚动
  • Java方法详解
  • RxJS: 简单入门
  • scala基础语法(二)
  • 它承受着该等级不该有的简单, leetcode 564 寻找最近的回文数
  • 小程序上传图片到七牛云(支持多张上传,预览,删除)
  • 最简单的无缝轮播
  • 白色的风信子
  • [Shell 脚本] 备份网站文件至OSS服务(纯shell脚本无sdk) ...
  • #pragma pack(1)
  • $ git push -u origin master 推送到远程库出错
  • (2022 CVPR) Unbiased Teacher v2
  • (3)选择元素——(14)接触DOM元素(Accessing DOM elements)
  • (6)STL算法之转换
  • (AtCoder Beginner Contest 340) -- F - S = 1 -- 题解
  • (day 2)JavaScript学习笔记(基础之变量、常量和注释)
  • (二十六)Java 数据结构
  • (附源码)apringboot计算机专业大学生就业指南 毕业设计061355
  • (附源码)ssm基于web技术的医务志愿者管理系统 毕业设计 100910
  • (简单) HDU 2612 Find a way,BFS。
  • (七)Activiti-modeler中文支持
  • (四)React组件、useState、组件样式
  • (算法设计与分析)第一章算法概述-习题
  • (转)mysql使用Navicat 导出和导入数据库
  • (转)ORM
  • ./indexer: error while loading shared libraries: libmysqlclient.so.18: cannot open shared object fil
  • .bat批处理(一):@echo off
  • .dat文件写入byte类型数组_用Python从Abaqus导出txt、dat数据
  • .NET 读取 JSON格式的数据
  • .NET8 动态添加定时任务(CRON Expression, Whatever)
  • .NetCore项目nginx发布
  • .NET中两种OCR方式对比
  • [ 常用工具篇 ] POC-bomber 漏洞检测工具安装及使用详解
  • [ 隧道技术 ] 反弹shell的集中常见方式(二)bash反弹shell
  • [23] 4K4D: Real-Time 4D View Synthesis at 4K Resolution