当前位置: 首页 > news >正文

大数据框架hadoop服务角色介绍

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

翻了一下最近一段时间写的分享,DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细,个人理解水平有限还请见谅吧!我记得在写DKHadoop运行环境部署的时候,遗漏了hadoop服务角色的内容,本篇特地补上这部分内容吧,不然总觉得不舒服。

要在集群中运行DKHadoop服务,需要指定集群中的一个或多个节点执行该服务的特定功能,角色分配是必须的,没有角色集群将无法正常工作,在分配角色前,需要了解这些角色的含义。

Hadoop服务角色:

1. zookeeper角色:ZooKeeper服务是指包含一个或多个节点的集群提供服务框架用于集群管理。对于集群,Zookeeper服务提供的功能包括维护配置信息、命名、提供HyperBase的分布式同步,推荐在 ZooKeeper集群中至少有3个节点。

2. JDK角色:JDK是 Java 语言的软件开发工具包, JDK是整个Java开发的核心,它包含了Java的运行环境,Java工具和Java基础的类库。

3. Apache-Flume角色:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。

4. Apache-Hive角色:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。

5. Apache-Storm角色:Storm是内存级计算,数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。当计算模型比较适合流式时,Storm的流式处理,省去了批处理的收集数据的时间.

6. Elasticsearch角色:Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索、稳定、可靠、快速,安装使用方便。

7. NameNode角色:HDFS系统中的节点用于维护文件系统中所有文件的目录结构并跟踪文件数据存储于哪些数据节点。当客户端需要从HDFS 文件系统中获得文件时,它通过和NameNode通讯来知道客户端哪个数据节点上有客户端需要的文件。 一个Hadoop集群中只能有一个NameNode。NameNode不能被赋予其他角色。

8. DataNode角色:在HDFS中,DataNode是用来存储数据块的节点。

9. Secondary NameNode 角色:为NameNode上的数据创建周期性检查点的节点。节点将周期性地下载当前NameNode镜像和日志文件,将日志和镜像文件合并为一个新的镜像文件然后上传到NameNode。 被分配了NameNode角色的机器不应再被分配Secondary NameNode 角色。

10. Standby Namenode角色:Standby模式的NameNode元数据(Namespcae information 和 Block 都是和Active NameNode中的元数据是同步的,一但切换成Active模式,马上就可以提供NameNode服务。

11. JournalNode角色:Standby NameName和Active NameNode通过JournalNode通信,保持信息同步。

12. HBase角色:HBase是一个分布式的、面向列的开源数据库。HBase在Hadoop之上提供了类似于BigTable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

13. Kafka角色:Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消费。

14. Redis角色:Redis是一个开源的使用C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。

15. Scala角色:Scala是一门多范式的编程语言,一种类似Java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

16. Sqoop角色:Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。

17. Impala角色:Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

18. Crawler角色:Crawler是大快DKHadoop专有组件,爬虫系统,爬取动态静态数据。

19. Spark角色:Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

20. HUE角色:HUE是一组可与您的Hadoop集群交互的网络应用程序。HUE应用能让您浏览HDFS和工作,管理Hive metastore,运行Hive,浏览HBase Sqoop出口数据,提交MapReduce程序,构建自定义的搜索引擎与Solr一起调度重复性的工作流。

转载于:https://my.oschina.net/u/3793864/blog/2048604

相关文章:

  • 谈谈Java程序员未来的出路
  • spring boot框架学习1-认识spring boot和快速入门
  • DbForge Data Compare for SQL Server入门教程:连接、同步数据库
  • mysql修改表的存储引擎(myisam=innodb)【转】
  • spring boot系列(七)spring boot 使用mongodb
  • [WCF安全系列]谈谈WCF的客户端认证[用户名/密码认证]
  • 别说国产虚拟化不行,现在国内虚拟化的主流趋势是国产化
  • JavaOne大事纪:IBM谈OpenJ9和Open Liberty
  • 只有坚持才能学好linux系统
  • 一句代码实现批量数据绑定[上篇]
  • 设置样式-----背景和边框
  • Python垃圾回收机制
  • 在linux系统上文件传输的小技巧
  • mysql主从复制的步骤
  • 随笔分类整理
  • C++回声服务器_9-epoll边缘触发模式版本服务器
  • CSS 提示工具(Tooltip)
  • Docker: 容器互访的三种方式
  • JS 面试题总结
  • MD5加密原理解析及OC版原理实现
  • Node 版本管理
  • 阿里云ubuntu14.04 Nginx反向代理Nodejs
  • 搭建gitbook 和 访问权限认证
  • 互联网大裁员:Java程序员失工作,焉知不能进ali?
  • 聊聊sentinel的DegradeSlot
  • 如何实现 font-size 的响应式
  • 入职第二天:使用koa搭建node server是种怎样的体验
  • 用jQuery怎么做到前后端分离
  • 你对linux中grep命令知道多少?
  • 【运维趟坑回忆录】vpc迁移 - 吃螃蟹之路
  • ###51单片机学习(1)-----单片机烧录软件的使用,以及如何建立一个工程项目
  • (1)(1.13) SiK无线电高级配置(六)
  • (12)Linux 常见的三种进程状态
  • (rabbitmq的高级特性)消息可靠性
  • (附源码)计算机毕业设计SSM疫情社区管理系统
  • (欧拉)openEuler系统添加网卡文件配置流程、(欧拉)openEuler系统手动配置ipv6地址流程、(欧拉)openEuler系统网络管理说明
  • (全部习题答案)研究生英语读写教程基础级教师用书PDF|| 研究生英语读写教程提高级教师用书PDF
  • (实战)静默dbca安装创建数据库 --参数说明+举例
  • (一)Dubbo快速入门、介绍、使用
  • (转)Android学习笔记 --- android任务栈和启动模式
  • .NET CORE Aws S3 使用
  • .NET Core实战项目之CMS 第十二章 开发篇-Dapper封装CURD及仓储代码生成器实现
  • .net 逐行读取大文本文件_如何使用 Java 灵活读取 Excel 内容 ?
  • .NET开发不可不知、不可不用的辅助类(三)(报表导出---终结版)
  • .net专家(张羿专栏)
  • .php结尾的域名,【php】php正则截取url中域名后的内容
  • .w文件怎么转成html文件,使用pandoc进行Word与Markdown文件转化
  • [20170728]oracle保留字.txt
  • [ACTF2020 新生赛]Upload 1
  • [Android]竖直滑动选择器WheelView的实现
  • [BZOJ5125]小Q的书架(决策单调性+分治DP+树状数组)
  • [C#]科学计数法(scientific notation)显示为正常数字
  • [c]扫雷
  • [CF]Codeforces Round #551 (Div. 2)
  • [dfs搜索寻找矩阵中最长递减序列]魔法森林的秘密路径