当前位置: 首页 > news >正文

大数据技术体系架构

大数据技术体系图

数据源

社交媒体平台

云平台

网站资源

物联网(IOT)

数据库

特点

分布式

数据源一般分布在不同的设备上,这些设备通常由网络连接在一起,网络空间的安全及其重要;

异构性

数据的来源广泛,比如社交媒体平台、云平台、网站资源、 物联网(IOT)、数据库;

多样性

数据的格式多样,比如关系型数据库,非关系型数据库;

流式产生

数据是实时产生的,这些实时的数据会被近实时或实时的收集,从而可以让系统及时的进行分析。

数据收集层

定义

数据收集层是与数据源直接对接的模块,负责接近实时或实时的收集数据源中的数据。

特点

拓展性

可以灵活的适配不同的数据源,在接入大量数据源的情况下,也不会产生系统瓶颈;

可靠性

数据传输过程中没有数据丢失,但也有部分系统在特定场景下可以容忍丢失少量数据;

安全性

在收集敏感数据的场景下,应该有完善规范的机制保证数据收集过程中不会产生安全隐患;

低延迟

在数据流量巨大的情况下,数据收集系统应该能够保证以低延迟的条件下将数据传输到后端的存储系统之中;

注意

在需要关联分析和挖掘的应用场景下,需要将数据收集到一个中央化的存储系统中。

数据存储层

定义

负责海量结构化与非结构化数据的存储。

特点

拓展性

伴随着数据量的递增,当现有集群存储系统存储能力快达到上限时,需要及时的增加新的机器来扩充存储能力,因此要求集群存储系统本身具备非常好的线性拓展能力;

容错性

配备完善的容错机制来确保系统及相关设施出现故障时不会导致数据的丢失;

存储模型

支持结构化、半结构化、非结构化数据的存储。

资源管理与服务协调层

资源管理

定义

集群资源共享,对资源进行统一的管理及使用,使用轻量级隔离方案对各个应用进行隔离,搭建轻量级弹性资源管理平台。

优势

资源利用率高

充分利用集群中的资源;

运维成本低

集群资源共享,集群少从而维护成本低;

数据共享

集群资源共享,无需进行跨集群数据传输。

服务协调层

定义

负责分布式集群系统中Leaer选举、服务标示、分布式队列、分布式缓存、分布式锁等通用功能的支持。

计算引擎层

定义

针对不同的应用场景需要设计不同的计算引擎层,主要考虑的问题有在线/离线处理数据、实时性要求程度、系统吞吐率要求程度。

分类

批处理

时间要求低,处理时间周期为分钟-小时,甚至是天,高吞吐率(单位时间内处理的数据量尽可能大),典型的应用场景有搜索引擎构建索引、批处理数据分析等;

交互式处理

时间要求高,处理时间周期为秒,这种场景一般涉及人机交互,典型的应用场景有数据查询、参数化报表生成等;

实时处理

时间要求高,处理时间周期为秒,典型的应用场景有广告系统、舆情监测等。

数据分析层

定义

面向用户应用程序提供易用、高效、多样化的数据处理工具,主要包括应用程序API、类SQL查询语言、数据挖掘SDK等。

数据可视化层

定义

运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 为何家用无线路由器不能实现PROFINET通信?
  • EasyExcel 文件导出:表头与内容样式简单设置
  • 【Tools】什么是基座模型
  • 机械学习—零基础学习日志(Python做数据分析02)
  • ✨机器学习笔记(三)—— 多元线性回归、特征缩放、Scikit-Learn(未完待续)
  • 大腾智能出席龙华云创中心启动与鸿蒙园揭牌仪式
  • 《花100块做个摸鱼小网站! 》第六篇—将小网站部署到云服务器上
  • 【前端面试】Webpack、Rollup 和 Gulp 构建工具了解
  • 收藏:B站相当精彩的关于向量数据库的2个视频
  • 《数据结构(C语言版)第二版》第八章-排序(8.3-交换排序、8.4-选择排序)
  • [数据集][图像分类]熊分类数据集309张5类别黑熊泰迪北极熊等
  • 动手学深度学习(pytorch)学习记录25-汇聚层(池化层)[学习记录]
  • AIGC与数据分析融合,引领商业智能新变革(TOP企业实践)
  • iOS——GCD再学习
  • rexroth拧紧系统
  • ES6指北【2】—— 箭头函数
  • Android交互
  • crontab执行失败的多种原因
  • Linux中的硬链接与软链接
  • node和express搭建代理服务器(源码)
  • Python 反序列化安全问题(二)
  • Python利用正则抓取网页内容保存到本地
  • python学习笔记-类对象的信息
  • Python语法速览与机器学习开发环境搭建
  • STAR法则
  • Vue小说阅读器(仿追书神器)
  • 不发不行!Netty集成文字图片聊天室外加TCP/IP软硬件通信
  • 高程读书笔记 第六章 面向对象程序设计
  • 回顾 Swift 多平台移植进度 #2
  • 利用阿里云 OSS 搭建私有 Docker 仓库
  • 前端工程化(Gulp、Webpack)-webpack
  • 如何胜任知名企业的商业数据分析师?
  • 远离DoS攻击 Windows Server 2016发布DNS政策
  • ionic异常记录
  • ​插件化DPI在商用WIFI中的价值
  • ​如何防止网络攻击?
  • # 数仓建模:如何构建主题宽表模型?
  • #define与typedef区别
  • #pragam once 和 #ifndef 预编译头
  • #传输# #传输数据判断#
  • (160)时序收敛--->(10)时序收敛十
  • (20)目标检测算法之YOLOv5计算预选框、详解anchor计算
  • (android 地图实战开发)3 在地图上显示当前位置和自定义银行位置
  • (CVPRW,2024)可学习的提示:遥感领域小样本语义分割
  • (Java)【深基9.例1】选举学生会
  • (WSI分类)WSI分类文献小综述 2024
  • (动态规划)5. 最长回文子串 java解决
  • (三)mysql_MYSQL(三)
  • (四)docker:为mysql和java jar运行环境创建同一网络,容器互联
  • (四)linux文件内容查看
  • (四)软件性能测试
  • (转) ns2/nam与nam实现相关的文件
  • (转)AS3正则:元子符,元序列,标志,数量表达符
  • (自用)交互协议设计——protobuf序列化
  • **CI中自动类加载的用法总结