当前位置: 首页 > news >正文

大数据应用整理

1.架构划分

1.1.数据抽取转换加载层(ETL)

从源系统抽取、转换、加载到所需的源数据,存储到系统的数据仓库中。ETL的设计和实施占整体工作的50%以上。ETL层的主要职责是将原始数据源中的数据提取出来,经过清洗、转换等处理后,加载到数据仓库的相应层次中,包括ODS层(Operational Data Store,操作型数据存储)或其他中间层。

1.1.1.数据抽取工具

1. ETL工具
  • Kettle/PDI(Pentaho Data Integration):这是一款开源的ETL工具,纯Java编写,支持跨平台运行。它提供高效稳定的数据抽取能力,支持从多种数据源提取数据,并通过图形界面设计ETL转换过程,降低使用门槛。同时,它支持自定义脚本、函数、存储过程等,满足复杂转换需求,并可灵活集成到其他管理系统中,支持数据仓库和数据湖的构建。
2. Apache Sqoop
  • Sqoop是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具,支持数据的导入和导出。它可以将关系型数据库中的数据导入到Hadoop的HDFS、Hive或HBase中,反之亦然。Sqoop利用MapReduce框架实现高效并发处理,提高数据传输速度,并支持增量导入和导出,减少数据重复处理。
3. Alibaba DataX 
  • DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现各种异构数据源之间稳定高效的数据同步。它广泛支持MySQL、Oracle、HDFS、Hive、HBase等多种异构数据源,提供强劲的同步性能和精准的速度控制,具备健壮的容错机制和可靠的数据质量监控,提供极简的使用体验,降低学习成本。
4. Web Scraping工具
  • Web Scraping工具专门用于从网站中提取信息,也被称为网络收集工具或Web数据提取工具。常见的Web Scraping工具有Import.io、Webhose.io等。这些工具支持从各种网站提取数据,无需编写复杂代码,能够实时或定时抓取网站数据,满足动态数据需求,并支持多种数据格式输出,如CSV、JSON等。

 在选择数据抽取工具时,需要根据具体需求综合考虑工具的易用性、性能、成本、支持的数据源类型等因素。对于需要处理大量异构数据的情况,ETL工具如DataX可能更合适;而对于需要从网站中提取数据的情况,Web Scraping工具则更具优势。

1.2. ODS层

主要负责承接ETL层的数据。ODS层的作用是将ETL层处理过的数据存储在一个可更新的位置,供其他层次使用。

1.3.CDM层

  • 数据加工与整合:CDM层是数据仓库的核心层之一,它基于ODS层的数据进行进一步的加工和整合。CDM层通过构建一致性的维度和可复用的面向分析和统计的明细事实表,为数据分析提供标准化的数据模型。
  • 数据明细与汇总:在CDM层中,数据通常被分为数据明细层(DWD)和数据汇总层(DWS)。DWD层接收ODS层的原始数据,并进行清洗、标准化等处理,为数据分析提供详尽的细节。而DWS层则通过聚合和汇总DWD层的数据,形成易于分析的宽表,提升数据分析的效率。

1.4.ADS层 (Analytics Data Store,分析型数据存储层)

ADS层在数据仓库架构中处于关键位置,它与其他层之间形成了紧密的数据处理链条和协作关系。通过充分利用ODS层、DWD层和DWS层提供的数据资源和数据模型支持,ADS层能够为业务层提供高质量的数据分析和决策支持服务。同时,ADS层也通过提供数据接口和数据服务等方式,与业务层进行紧密的交互和协作,共同推动数据价值的最大化。

1.4.1.数据展示接口与服务

  • 数据报表与图表:ADS层提供了各种展示数据的方式,如数据报表、图表等,通过直观的图形化界面,企业用户可以轻松地了解业务的发展趋势,对业务进行分析和决策。
  • 可视化工具:除了传统的报表和图表外,ADS层还可能集成数据可视化工具,帮助用户以更直观、更交互的方式探索和分析数据。

1.4.2.数据分析接口与服务 

  • 分析工具:ADS层提供了强大的数据分析工具,允许企业用户根据不同的维度、标签进行数据分组,得出各种指标的变化趋势。这些工具支持复杂的数据分析需求,如趋势分析、关联分析、聚类分析等。
  • 自定义分析:为了满足不同用户的个性化需求,ADS层还可能提供自定义分析功能,允许用户根据自己的业务逻辑和数据需求,设计并执行自定义的数据分析任务。

1.4.3.数据挖掘接口与服务 

  • 数据挖掘算法:ADS层内置了多种数据挖掘算法,如分类、聚类、预测等,帮助用户挖掘数据中的潜在价值信息,发现潜在的商业机会和风险。
  • 模型训练与部署:对于需要高级数据挖掘功能的企业用户,ADS层还支持模型训练和部署功能。用户可以在ADS层上训练机器学习模型,并将其部署到生产环境中,以支持实时的数据分析和预测。

1.4.4.数据服务接口 

  • 数据API:ADS层提供数据API接口,允许其他系统或应用程序通过HTTP等协议访问ADS层中的数据。这使得数据可以在不同系统之间自由流动和共享,提高了数据的利用率和灵活性。
  • 数据订阅与推送:为了满足企业对实时数据的需求,ADS层还可能提供数据订阅与推送服务。企业用户可以订阅感兴趣的数据集或指标,并设置推送频率和方式(如邮件、短信、Webhooks等),以便在数据发生变化时及时获得通知。

1.4.5.安全与权限管理 

  • 数据加密与备份:ADS层会对存储的数据进行加密处理,以防止数据泄露和非法访问。同时,ADS层还会定期备份数据,以确保数据的安全性和可恢复性。
  • 权限控制:ADS层提供了灵活的权限控制机制,允许企业用户根据自己的需要设置不同的访问权限和角色管理策略。这有助于保护数据的安全性和隐私性,防止敏感数据被未经授权的人员访问。

 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • IDEA:如何在idea中设置自动导包
  • 17、springboot3 vue3开发平台-前端-主页面布局搭建
  • 使用 prerenderRoutes 进行预渲染路由
  • 设计模式实战:旅行预订系统的设计与实现
  • Java 操作 Redis和redis持久化
  • C++图笔记(二)最短路
  • 【速通C语言(纯小白版)】第一部分:准备工作
  • microsoft edge怎么关闭安全搜索
  • 【ubutnu18.04】k8s 部署4: worker节点配置1.31.0和containerd 1.7.20
  • Golang | Leetcode Golang题解之第338题比特位计数
  • 【学习笔记】卫星网络(NTN)的窄带物联网(NB-IoT)/增强型机器类型通信(eMTC)研究 -- 3GPP TR 36.763(四)
  • 如何将CSDN文章导出为pdf文件
  • 【数据结构-哈希前缀】力扣2845. 统计趣味子数组的数目
  • 多线程锁机制面试
  • 素数与最大公约数GCD:
  • 2019年如何成为全栈工程师?
  • CSS 三角实现
  • Docker 笔记(2):Dockerfile
  • ERLANG 网工修炼笔记 ---- UDP
  • IE报vuex requires a Promise polyfill in this browser问题解决
  • jquery cookie
  • mongo索引构建
  • MySQL用户中的%到底包不包括localhost?
  • passportjs 源码分析
  • Phpstorm怎样批量删除空行?
  • redis学习笔记(三):列表、集合、有序集合
  • Spring Boot快速入门(一):Hello Spring Boot
  • vuex 笔记整理
  • 近期前端发展计划
  • 如何正确配置 Ubuntu 14.04 服务器?
  • 入职第二天:使用koa搭建node server是种怎样的体验
  • 树莓派 - 使用须知
  • 数组的操作
  • 思考 CSS 架构
  • 微信如何实现自动跳转到用其他浏览器打开指定页面下载APP
  • 赢得Docker挑战最佳实践
  • 用mpvue开发微信小程序
  • 再次简单明了总结flex布局,一看就懂...
  • Linux权限管理(week1_day5)--技术流ken
  • RDS-Mysql 物理备份恢复到本地数据库上
  • 如何在 Intellij IDEA 更高效地将应用部署到容器服务 Kubernetes ...
  • 小白应该如何快速入门阿里云服务器,新手使用ECS的方法 ...
  • #Linux杂记--将Python3的源码编译为.so文件方法与Linux环境下的交叉编译方法
  • #我与Java虚拟机的故事#连载01:人在JVM,身不由己
  • $.ajax中的eval及dataType
  • $分析了六十多年间100万字的政府工作报告,我看到了这样的变迁
  • (20)docke容器
  • (4)logging(日志模块)
  • (4)STL算法之比较
  • (done) NLP “bag-of-words“ 方法 (带有二元分类和多元分类两个例子)词袋模型、BoW
  • (k8s中)docker netty OOM问题记录
  • (SpringBoot)第七章:SpringBoot日志文件
  • (四)事件系统
  • (转)PlayerPrefs在Windows下存到哪里去了?
  • (转)一些感悟