当前位置: 首页 > news >正文

【图书推荐】《数据资产管理核心技术与应用》

内容简介

《数据资产管理核心技术与应用》深入探讨数据资产管理的核心技术与应用,融入作者在大数据领域多年的丰富经验。《数据资产管理核心技术与应用》为读者提供一套可以落地的数据资产管理框架,并详解两个基于该框架进行数据资产管理的应用案例,使读者能更好地了解数据资产管理底层所涉及的众多核心技术,让数据可以发挥出更大的价值。本书配套PPT课件、示例源代码、作者微信群答疑服务。

全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。

适合读者

适合数据资产管理者、数据资产管理初学者、数据应用开发工程师、数据分析师、数据库管理员、架构师、产品经理、技术经理作为技术参考书,也适合高等院校或高职高专数据资产管理相关课程的教学参考书。

作者简介

张永清,从事功能测试、自动化测试、性能测试、Java软件开发、大数据开发、架构师等工作十多年,在自动化测试设计、性能测试设计、性能诊断、性能调优、分布式架构设计等方面积累了多年经验。参与过的系统涉及公安、互联网、移动互联网、大数据、人工智能等领域。先后任职于江苏飞搏软件、苏宁大数据研发中心、苏宁研究院、苏宁人工智能研发中心、紫金普惠研发中心、福特汽车工程研究有限公司,历任测试经理、技术经理、部门经理、高级架构师等职位。重点关注大数据、图像处理、高性能分布式架构设计等领域。著有图书《软件性能测试、分析与调优实践之路(第2版)》《软件性能测试、分析与调优实践之路》《Robot Framework自动化测试框架核心指南》。

前言

随着互联网技术的稳步发展以及人工智能时代的到来,我们已经迈入了一个数据激增的时代。每时每刻都在产生大量的数据,数据的格式和种类也在不断增加。与此同时,大数据技术和架构也在不断变革。传统的数据仓库已经无法满足海量数据的存储和分析需求,于是出现了数据湖以及湖仓一体的新型大数据技术架构。由此可以看到,随着大数据的发展,数据存储和分析会变得越来越复杂,海量数据的管理也会变得越来越重要。同时,随着人工智能技术越来越成熟,海量数据可以更好地服务于人工智能的模型训练,让人工智能变得更加准确。

本书从技术与应用两个角度讲述了如何管理数据资产、解决数据资产管理中面临的诸多技术痛点,从而让数据终端用户或者数据分析师等能快速找到自己想要的数据,让数据可以发挥出更大的价值。

关于本书

本书聚焦数据资产管理的核心技术与应用,作者分享了多年大数据工作中积累的相关技术与经验,旨在为读者提供一套可以落地的数据资产管理框架,基于该框架进行数据资产管理实践,让读者能更好地学习和理解数据资产管理底层所涉及的众多核心技术。

本书内容可以分为如下三个部分来理解:

(1)第1章,主要让读者认识数据资产,了解数据资产相关的基础概念及其发展情况。

(2)第2~8章,主要介绍大数据时代数据资产管理包含的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等,全面介绍数据资产管理底层所涉及的核心技术。

(3)第9~10章,主要从实战的角度介绍数据资产管理的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。

配套资源下载

本书配套PPT课件、示例源代码、作者微信群答疑服务,需要读者用自己的微信扫描下方的二维码下载。如果在学习本书的过程中发现问题或有疑问,可发送邮件至booksaga@163.com,邮件主题写上“数据资产管理核心技术与应用”。

本书作者

本书第1章由张永清和王函共同写作,第2~3章由张永清写作,第4章由蒋彪和张永清共同写作,第5~8章由张永清写作,第9~10章由赵伟写作。

鸣谢

感谢清华大学出版社的编辑们对本书的出版所做出的贡献。

感谢福特中国新能源技术、数字化及整车硬件研发执行总监陈兵为本书写推荐序。

感谢白鲸开源联合创始人、Apache基金会正式成员、Apache孵化器导师、Apache DolphinScheduler PMC Chair、Apache SeaTunnel PMC、ApacheCon亚洲大数据湖仓论坛出品人、中国开源先锋、中国科协“2023开源创新榜”优秀人物代立冬为本书写推荐序。

感谢Databricks高级架构师吴舒对本书的技术指导。

感谢福特中国数字化高级经理周扬对本书的特别点评和支持。

感谢部门同事以及身边的众多朋友对本书的支持。

感谢江苏省交通通信信息中心朱雷雷为本书写推荐序。

由于作者水平和时间的限制,书中难免存在疏漏之处,还望见谅并帮忙指正,也恳请读者提出更多宝贵的意见和建议。

张永清于南京

2024年5月

目录

目    录
第 1 章  认识数据资产 1
1.1  数据资产的基本介绍 1
1.2  数据资产的分类 4
1.3  数据资产的价值评估 5
1.4  数据资产的质量 6
1.5  数据资产的存储 6
1.6  数据资产管理 9
1.7  数据资产管理的信息化建设 11
1.8  数据资产与人工智能 11
第 2 章  元数据的采集与存储 13
2.1  Hive中的元数据采集 14
2.1.1  基于Hive Meta DB的元数据采集 14
2.1.2  基于Hive Catalog的元数据采集 18
2.1.3  基于Spark Catalog的元数据采集 21
2.2  Delta Lake中的元数据采集 29
2.2.1  基于Delta Lake自身设计来采集元数据 31
2.2.2  基于Spark Catalog来采集元数据 32
2.3  MySQL中的元数据采集 34
2.4  Apache Hudi中的元数据采集 41
2.4.1  基于Spark Catalog采集元数据 42
2.4.2  Hudi Timeline Meta Server 43
2.4.3  基于Hive Meta DB采集元数据 47
2.5  Apache Iceberg中的元数据采集 49
2.5.1  Iceberg的元数据设计 50
2.5.2  Iceberg元数据的采集 54
2.6  元数据的存储模型设计 56
2.6.1  如何对元数据进行整合 56
2.6.2  元数据的存储模型设计 57
第 3 章  数据血缘 59
3.1  获取数据血缘的技术实现 59
3.1.1  如何从Hive中获取数据血缘 60
3.1.2  从Spark执行计划中获取数据血缘 66
3.1.3  从Spark SQL语句中获取数据血缘 82
3.1.4  从Flink中获取数据血缘 91
3.1.5  从数据任务的编排系统中获取数据血缘 92
3.2  数据血缘的存储模型与展示设计 94
第 4 章  数据质量的技术实现 98
4.1  质量数据采集的技术实现 100
4.1.1  定义数据采集的规则 100
4.1.2  定时Job的技术选型 103
4.2  如何处理采集到的质量数据 109
4.3  质量数据的存储模型设计 110
4.4  常见的开源数据质量管理平台 112
4.4.1  Apache Griffin 112
4.4.2  Qualitis 113
第 5 章  数据监控与告警 116
5.1  数据监控 116
5.1.1  数据监控的种类 116
5.1.2  监控数据的特点与存储方式 117
5.2  常见的数据监控目标 118
5.2.1  数据链路监控 118
5.2.2  数据任务监控 124
5.2.3  数据质量监控 125
5.2.4  数据服务监控 125
5.2.5  数据处理资源监控 126
5.3  Prometheus简介 128
5.4  Grafana简介 135
5.5  使用Grafana和Prometheus来实现数据监控与告警 138
5.5.1  数据链路的告警实现 138
5.5.2  数据任务的告警实现 141
5.5.3  数据质量的告警实现 142
5.5.4  数据服务的告警实现 142
5.5.5  数据处理资源的告警实现 143
第 6 章  数据服务 146
6.1  如何设计数据服务 146
6.1.1  数据源管理 148
6.1.2  数据服务的敏捷化和可配置化 148
6.1.3  数据服务文档的自动生成 151
6.1.4  数据服务的统一认证与鉴权 151
6.1.5  数据服务的监控与告警 153
6.2  数据服务的性能 155
6.3  数据服务的熔断与降级 159
第 7 章  数据权限与安全 163
7.1  常见的权限设计模式 163
7.1.1  基于角色的访问控制 164
7.1.2  基于属性的访问控制 165
7.1.3  基于对象的访问控制 165
7.2  数据权限 166
7.2.1  列权限控制 167
7.2.2  行权限控制 170
7.3  数据脱敏 171
7.4  数据安全 174
第 8 章  数据资产架构 176
8.1  数据资产的架构设计 177
8.1.1  数据获取层 177
8.1.2  数据处理层 178
8.1.3  数据存储层 180
8.1.4  数据管理层 182
8.1.5  数据分析层 182
8.1.6  数据服务层 183
8.2  常见的开源数据资产管理平台 185
8.2.1  Apache Atlas 185
8.2.2  Data Hub 186
8.2.3  OpenMetadata 189
第 9 章  元数据管理实践 193
9.1  如何理解元数据 194
9.1.1  为何需要元数据 194
9.1.2  如何让元数据产生更大价值 195
9.1.3  元数据分类及其好处 196
9.1.4  元数据管理 198
9.1.5  参与角色 201
9.2  元数据管理 202
9.2.1  元数据模型的组织关系 202
9.2.2  元数据的采集 204
9.2.3  业务域设计 205
9.2.4  业务术语设计 209
9.2.5  元数据标签设计 212
9.2.6  数据Owner 214
9.2.7  数据生命周期 215
9.2.8  元数据注册和发布 216
9.2.9  核心功能介绍 218
第 10 章  数据建模实践 224
10.1  什么是数据建模 224
10.1.1  数据模型分类 224
10.1.2  数据建模方法 227
10.2  数据仓库建模架构 229
10.3  关系型数据建模 231
10.3.1  概念模型阶段 231
10.3.2  逻辑模型阶段 235
10.3.3  物理模型阶段 238
10.4  维度建模 240
10.4.1  基本概念 240
10.4.2  维度表设计 246
10.4.3  事实表分类 250
10.4.4  基于维度建模的数据分析实践 251
参考文献 253

正版购买

《数据资产管理核心技术与应用 张清 赵伟 蒋彪 王函 清华大学出版社9787302666998》【摘要 书评 试读】- 京东图书 (jd.com)

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • JAVA中的Wrapper类
  • 认识消息队列:Spring Boot 实现 MQ 消息队列,解锁异步、削峰、广播等高级功能!
  • Pygame游戏开发进阶:碰撞检测和声音效果
  • 武汉流星汇聚:中国制造业与跨境电商共舞,性价比领先全球电商平台
  • django基于大数据的电影推荐系统-计算机毕业设计源码71246
  • 【计算机网络——1.4接入网和物理媒体】
  • 【编程笔记】解决移动硬盘无法访问文件或目录损坏且无法读取
  • 深入解析数据仓库ADS层-从理论到实践的全面指南
  • gin框架传入的gin.context参数是池化的
  • 3.串口(UART)
  • 写一个获取cookie方法
  • 我的cesium for UE踩坑之旅(蓝图、UI创建)
  • Genymotion adb shell
  • 程序员短视频上瘾综合症
  • Linux Tcp 连接 状态 检测 处理
  • Google 是如何开发 Web 框架的
  • Babel配置的不完全指南
  • java B2B2C 源码多租户电子商城系统-Kafka基本使用介绍
  • Java到底能干嘛?
  • JS变量作用域
  • Laravel Telescope:优雅的应用调试工具
  • PHP那些事儿
  • python 装饰器(一)
  • seaborn 安装成功 + ImportError: DLL load failed: 找不到指定的模块 问题解决
  • SpringBoot 实战 (三) | 配置文件详解
  • vue中实现单选
  • 爱情 北京女病人
  • 高性能JavaScript阅读简记(三)
  • 关键词挖掘技术哪家强(一)基于node.js技术开发一个关键字查询工具
  • 简单基于spring的redis配置(单机和集群模式)
  • 来,膜拜下android roadmap,强大的执行力
  • 体验javascript之美-第五课 匿名函数自执行和闭包是一回事儿吗?
  • 我建了一个叫Hello World的项目
  • 想使用 MongoDB ,你应该了解这8个方面!
  • 关于Android全面屏虚拟导航栏的适配总结
  • 曾刷新两项世界纪录,腾讯优图人脸检测算法 DSFD 正式开源 ...
  • ​3ds Max插件CG MAGIC图形板块为您提升线条效率!
  • ​Linux Ubuntu环境下使用docker构建spark运行环境(超级详细)
  • ​无人机石油管道巡检方案新亮点:灵活准确又高效
  • !!Dom4j 学习笔记
  • ![CDATA[ ]] 是什么东东
  • #include
  • (LeetCode 49)Anagrams
  • (rabbitmq的高级特性)消息可靠性
  • (二刷)代码随想录第15天|层序遍历 226.翻转二叉树 101.对称二叉树2
  • (附源码)ssm教师工作量核算统计系统 毕业设计 162307
  • (论文阅读26/100)Weakly-supervised learning with convolutional neural networks
  • (心得)获取一个数二进制序列中所有的偶数位和奇数位, 分别输出二进制序列。
  • (学习日记)2024.03.25:UCOSIII第二十二节:系统启动流程详解
  • .[backups@airmail.cc].faust勒索病毒的最新威胁:如何恢复您的数据?
  • .bat文件调用java类的main方法
  • .Net 4.0并行库实用性演练
  • .NET Framework 4.6.2改进了WPF和安全性
  • .net mvc部分视图
  • .NET 反射的使用