当前位置: 首页 > news >正文

浅谈数据仓库运营

一、背景

        企业每天都会产生大量的数据,随着时间增长,数据会呈现几何增长,尤其在系统基建基础好的公司。好的数据仓库需要提前规划和好的运营,才能支持企业的发展,为企业提供数据分析基础。

二、目标

        提高数据仓库存储性能和开发质量以及数据质量

三、数据运营指标

3.1 开发质量

表名规范性:检验数据库表名是否按照数仓表名规范,表名是否按照词根翻译

字段名规范性:检验表字段名是否按照词根中文进行翻译

字段类型规范性:检验表字段类型是否按照数据标准设立

表引用次数:根据表引用次数进行排名,重点关注引用次数高的和次数低的,次数高的定期优化,确保任务执行失败,次数低的考虑数据架构是否合理,如果存在次数为0的说明未使用(很多业务调整但是表还没有拿掉,会存在很多僵尸表)。

表循环依赖:检查数据库表是否存在循环写入(A->B,B->C,C->A),很多公司不存在数据架构师,往往为了实现报表需求,直接拿已经做好的指标,可能会存在循环写入的情况(A表用B表指标1,B表用A表指标2)

表层级依赖:数仓规范会要求ODS只能写入DWD层,DWD层只能写入DWS层。

SQL编写规范性:在sql中我们会要求sql编写规范,不写 select *, 字段后带有注释,字段前有表别名,每个表必须重命名,字段换行等等

3.2 ETL任务

任务失败次数:查看任务失败次数排名,重点关注容易出错的任务

任务执行时长:优化长时间执行任务,降低资源使用

任务读取数据量:查看任务读取数据量大小,大数据量访问的数据库做好性能支撑

任务执行时间点分布:查看任务集中时间点,将任务均匀分布,避免任务集中执行

任务类型分布:查看执行任务类型分布,针对不同类型任务分配资源

3.3 数据质量

一致性:数据值在数据集之间和数据集内之间表达的相符程度

完整性:引用完整性或数据集内部的一致性

准确性:数据模式符合预期程度

及时性:数据更新是否及时

唯一性:数据集的任何实体不会重复出现

有效性:数据值与定义的域值一致

四、实施步骤

定规范:制定数据仓库开发规范,建立词根库,制定数据标准。

定流程:将开发最佳实践落地成流程,做好人岗匹配。

规范落地监控:根据规范开发规范规则监控,识别违法规范行为。

奖罚措施:奖励优秀的开发,惩罚违法开发规范的行为。

相关文章:

  • LeetCode 2706. 购买两块巧克力【数组,一次遍历】1207
  • P8780 [蓝桥杯 2022 省 B] 刷题统计
  • Java多线程之线程池,volatile,悲观锁,乐观锁,并发工具类
  • 机器学习之BP神经网络精讲(Backpropagation Neural Network(附案例代码))
  • 基于SpringBoot的在线互动学习网站
  • git上传代码到github远程仓库
  • 个人博客主题 vuepress-hope
  • ubuntu 如何放开防火墙端口,ubuntu 防火墙操作命令,ubuntu 防火墙全面操作说明
  • python读取xlsx格式的excel
  • Python面向对象-三大特性
  • MySQL基础笔记(1)基础理论
  • Python编程-面向对象基础与入门到实践一书的内容拓展
  • 【机电、机器人方向会议征稿|不限专业|见刊快】2024年机械、 图像与机器人国际会议(IACMIR 2024)
  • asp.net core webapi AutoMapper使用
  • 抖音详情API:从零开始构建抖音应用
  • codis proxy处理流程
  • Consul Config 使用Git做版本控制的实现
  • CSS进阶篇--用CSS开启硬件加速来提高网站性能
  • exports和module.exports
  • Java 实战开发之spring、logback配置及chrome开发神器(六)
  • javascript从右向左截取指定位数字符的3种方法
  • Leetcode 27 Remove Element
  • Linux编程学习笔记 | Linux IO学习[1] - 文件IO
  • mysql常用命令汇总
  • Mysql优化
  • session共享问题解决方案
  • spring + angular 实现导出excel
  • 关于字符编码你应该知道的事情
  • 基于Javascript, Springboot的管理系统报表查询页面代码设计
  • 计算机常识 - 收藏集 - 掘金
  • 爬虫模拟登陆 SegmentFault
  • 前嗅ForeSpider采集配置界面介绍
  • 通过获取异步加载JS文件进度实现一个canvas环形loading图
  • 物联网链路协议
  • 学习ES6 变量的解构赋值
  • 优化 Vue 项目编译文件大小
  • 责任链模式的两种实现
  • 正则与JS中的正则
  • AI算硅基生命吗,为什么?
  • 蚂蚁金服CTO程立:真正的技术革命才刚刚开始
  • (libusb) usb口自动刷新
  • (附源码)ssm经济信息门户网站 毕业设计 141634
  • (机器学习的矩阵)(向量、矩阵与多元线性回归)
  • (小白学Java)Java简介和基本配置
  • .NET Core 通过 Ef Core 操作 Mysql
  • .Net Core和.Net Standard直观理解
  • .NET Framework Client Profile - a Subset of the .NET Framework Redistribution
  • .NET设计模式(8):适配器模式(Adapter Pattern)
  • /bin/bash^M: bad interpreter: No such file ordirectory
  • @SentinelResource详解
  • [ CTF ] WriteUp- 2022年第三届“网鼎杯”网络安全大赛(朱雀组)
  • [BZOJ1008][HNOI2008]越狱
  • [bzoj4240] 有趣的家庭菜园
  • [C/C++] -- 二叉树
  • [C++]Leetcode17电话号码的字母组合