当前位置: 首页 > news >正文

数据质量管理-可访问性管理

前情提要

根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

可访问性怎么进行数据监测和指标量化

官方定义:数据能被访问的程度;

数据能被访问的程度可以分为数据开放程度(包含被访问的广度、被访问的深度)、数据被访问的难易程度(数据共享模式是否成熟);

作用的环节:数据可被访问与否是针对数据资源而言的,因此监测环节是数据资源层;

数据质量管理依据:数据使用标准

数据监测方法

数据开放程度

数据开放程度是相对于内部数据资源而言的,是指内部数据资源对外开放的占比。不对外开放的原因主要为以下几点:

1.基于数据分级分类标准梳理出来的数据资源,组织内部的数据分为核心数据、重要数据、一般数据,有些数据高度涉密,对于这类数据会限制访问权限;

2.组织内部有些数据治理手段不足,质量结果不达标,在短期内参考数据使用标准而言也不会对外开放;

3.站在数据生命周期管理的角度而言,有些数据已经达到了数据生命周期的末期甚至无效的那类数据,也可以不对外开放;

监测方法

针对第一点和第二点,我把这两类情况定义为数据被访问的广度,可以指定的监测方法为:监测外部使用的字段/表单字段总数;

针对第三点,我把这类情况定义为数据被访问的深度,可以在做数据生命周期管理的过程中通过标记无效记录的规则覆盖记录数/对外开放表单记录总数;

数据被访问的难易程度

数据被访问的难易程度:数据被访问的难易程度是指用户对于数据资源访问的难易程度。其中需要考虑的因素:

数据获取渠道的稳定性,基开放共享策略监测访问稳定性作为数据被访问的难易程度的考量因素;

监测方法:

数据获取渠道的稳定性:需要对用户访问数据的成功数/用户访问次数;

量化标准

数据被访问性的量化标准按照定义划分有四个维度,包含数据开放程度、数据被访问的难易程度、数据被访问量、时间周期内数据被访问频率,基于四个维度设置权重,数据开放程度占比60%,数据被访问的难易程度占比40%;

数据开放程度量化标准

1.表名:指数据资源中数仓服务层的表名;

2.是否对外共享:是指表单是否加工完成,具备对外共享的条件;

3.共享字段数:是指对外共享的字段数量;

4.字段总数:是指表单的字段总数;

5.被访问的广度:是指被共享字段占表单字段数的比重,从数据库列数统计(共享字段数/字段总数);

6.表单记录数:是指该张表在统计时间点中的存储记录数;

7.无效记录数:是指该张表在统计时间点中的存储无效记录数;

8.被访问的深度:是指该张表开放内容的深度,从数据库行数统计((表单记录数-无效记录数)/表单记录数);(注:如组织内部无管理无效记录数的相关措施,可以只统计广度)

9.数据开放程度:是指数据从广度和深度两个维度综合计算,得出的数据开放程度(被访问广度*被访问深度);

数据被访问的难易程度量化标准

1.表名:指数据资源中数仓服务层的表名;

2.是否对外共享:是指表单是否加工完成,具备对外共享的条件;

3.数据开放共享策略,例如是API开放、Excel数据包下载、隐私计算、可信数据空间等手段;

4.用户访问数:是指用户访问通过数据开放策略访问表单的次数;

5.用户访问成功数:是指用户访问通过数据开放策略访问表单的成功次数;

6.数据被访问成功率:是指用户基于数据开放策略成功获取数据的占比(用户访问成功数/用户访问数);

下一章:关联性怎么进行数据监测和指标量化 ?

相关文章:

  • 从零搭建Prometheus到Grafana告警推送
  • Ansible自动化部署
  • pdf拆分,pdf拆分在线使用,pdf拆分多个pdf
  • 主干网络篇 | YOLOv5/v7 更换骨干网络之 MobileNetV3 | 基于神经网络搜索的轻量级网络
  • Ubuntu20.04安装vimplus插件
  • 多任务学习和迁移学习的原理
  • Windows传统DOS路径有效性检测(资源篇)
  • 服务器是否稳定怎么看
  • 将excel表格转换为element table(上)
  • springcloud-gateway 路由加载流程
  • 获取目标机器的ssh反弹权限后,如何通过一台公网服务器的服务 jar 包进行偷梁换柱植入目录进行钓鱼,从而获取目标使用人的终端设备权限和个人信息?
  • 记因hive配置文件参数运用不当导致 sqoop MySQL导入数据到hive 失败的案例
  • MySQL 基础概念
  • 编写动态库
  • YOLOv8 的简介 及C#中如何简单应用YOLOv8
  • 07.Android之多媒体问题
  • Android单元测试 - 几个重要问题
  • CentOS学习笔记 - 12. Nginx搭建Centos7.5远程repo
  • Django 博客开发教程 8 - 博客文章详情页
  • JS专题之继承
  • k个最大的数及变种小结
  • leetcode-27. Remove Element
  • magento2项目上线注意事项
  • Service Worker
  • SpiderData 2019年2月13日 DApp数据排行榜
  • VuePress 静态网站生成
  • 函数式编程与面向对象编程[4]:Scala的类型关联Type Alias
  • 前端知识点整理(待续)
  • 区块链分支循环
  • 微服务框架lagom
  • 验证码识别技术——15分钟带你突破各种复杂不定长验证码
  • 一、python与pycharm的安装
  • 应用生命周期终极 DevOps 工具包
  • ​ArcGIS Pro 如何批量删除字段
  • #QT项目实战(天气预报)
  • (C语言)共用体union的用法举例
  • (echarts)echarts使用时重新加载数据之前的数据存留在图上的问题
  • (二)windows配置JDK环境
  • **PHP分步表单提交思路(分页表单提交)
  • .“空心村”成因分析及解决对策122344
  • .gitignore文件—git忽略文件
  • .Net 应用中使用dot trace进行性能诊断
  • .NET6实现破解Modbus poll点表配置文件
  • .net生成的类,跨工程调用显示注释
  • /3GB和/USERVA开关
  • @test注解_Spring 自定义注解你了解过吗?
  • [ 常用工具篇 ] AntSword 蚁剑安装及使用详解
  • [C++]类和对象【上篇】
  • [Deep Learning] 神经网络基础
  • [HDU] 1054 Strategic Game 入门树形DP
  • [jQuery]div滚动条回到最底部
  • [linux运维] 利用zabbix监控linux高危命令并发送告警(基于Zabbix 6)
  • [python] os.path说明
  • [ZT]互联网网站应该如何存储密码?
  • [递归、搜索、回溯]----递归