当前位置: 首页 > news >正文

基于大数据平台的毕业设计01:基于Docker的HDP集群搭建

前言

好多人问我,这种基于大数据平台的xxxx的毕业设计要怎么做。这个可以参考之前写得关于我大数据毕业设计的文章基于大数据平台的毕业设计。这篇文章是将对之前的毕设进行优化。

个人觉得可以分为两个部分。第一个部分就是基础的平台搭建。例如Hadoop集群、Kafka集群。

第二个部分就是上层应用的建设,例如基于大数据平台的数据分析,以及大屏展示之类的可视化应用。前者提供了基础平台能力,让整个设计加入大数据元素;后者提供了上层应用能力,主要是让别人明白你利用大数据平台做了什么

前些日子闲得无聊,在一台虚拟机上基于docker容器,使用Ambari搭建了一个HDP版本的Hadoop大数据集群。所以就结合这篇文章,对第一部分进行阐述,提供一个新的思路。

思路

在集群搭建的过程中,遇到了形形色色的问题。在问题里去思考、去查阅资料。这是一个蛮有意思的事情。

在上一篇文章也写了,我的大数据毕业设计的Hadoop平台搭建部分,是基于三台虚拟机实现的。当时使用的Apache版本的Hadoop。

Apache版本的缺点是没有一个统一的管控平台。

  1. 前期的安装需要在每个节点手动分发安装包、执行启动命令。
  2. 后期的节点维护、服务启停都需要去后台执行命令。

加上三台虚拟机,每次启动费个老劲。所以我就寻思用Ambari来搭建一个HDP版本的、一个虚拟机就能搞定的、基于docker容器的Hadoop集群。

整体架构

整个架构设计和技术选型,都是根据个人需求选择,可以参考。

1. 技术选型

宿主机和docker的操作系统选择的是centos7。我尝试了centos8,不太行。主要

  1. docker:容器,代替虚拟机节点搭建集群
  2. docker-compose:编排容器。对所有容器进行管理、启动
  3. Ambari:2.7.3版本。可视化安装、监控、管理所有集群。
  4. HDP:3.1版本。其中包括Hadoop、HDFS、Yarn、Spark、Kafka、Zookeeper等服务。
  5. MySQL:ambari元数据库。后面应用也会用到。

除此之外,还需要shell编写一些脚本。

2. 架构设计

在这里插入图片描述

平台一览

这就是Ambari的首页仪表盘的部分,里面可以看到HDFS的存储,内存使用量指标。

Hadoop集群

Hadoop集群一共用了四个节点。NameNode,一个备用的NameNode,两个DataNode。

点击右侧的NameNode UI可以看到Hadoop集群的UI界面。

集群节点

这里的Hosts指的就是所有集群节点的个数,也是docker节点的个数。这里因为内存有限,所以一个docker启动了好几个服务

例如这个kafka1节点,即安装了Kafka,又安装了Zookeeper。

环境准备

我在实践docker搭建集群的时候,90%的时间都花费在了环境准备上。同样,遇到的90%的问题也都在这个步骤上。

1. 虚拟机准备

我自己的架构是一台虚拟机,然后其他节点都是用docker代替的。docker你可以理解为轻量虚拟机。

我选择docker的理由:

  1. 觉得挺有意思,想挑战一下自己的软肋。
  2. 一个虚拟机可能需要占用20G存储,一个docker只占用几百MB*。
  3. 只需要启动一台虚拟机即可。docker作为应用服务运行在这台虚拟机上。

其实,这里我是建议使用3 ~ 4台虚拟机的。因为docker本身对于很多人来说是有一定难度的,再加上需要将docker构建成节点,是需要花费很多时间的。

2. docker容器准备

如果说是头铁非要用docker,那么可以看看这一步。我在这一步构建节点docker镜像的时候,反复构建了很多次。

dockerfile

我们要自己编写dockerfile几月centtos7来构建docker容器的系统镜像。而且,docker容器代替了虚拟机,那么docker容器里的环境就要和虚拟机一样。所以dockerfile需要满足以下条件。

  1. 开放22端口,启动sshd服务
  2. 配置jdk、scala
  3. 生成密钥,配置ssh免密登录
  4. python2.7(centos7自带)
  5. yum安装一些软件,例如chrony等
  6. 配置hosts

在编写dockerfile阶段,查阅了很多资料,反复构建,尝试了很多次才成功。

docker-compose

docker-compose是docker容器的编排工具,需要编写一个yaml配置文件,通过start/stop来启动/停止所有的容器。

这个centos_hdp就是我自己构建的镜像,ports来开放容器的端口,volumes来挂载宿主机的目录。

3. 下载安装包

我在2016年毕业设计中,所搭建的大数据平台的各个组件都是独立下载安装的。Hadoop的安装包需要去Hadoop官网下载,Kafka安装包需要去Kafka官网下载。想安装哪个版本就安装哪个版本。

基于Ambari安装,所有组件都包含在HDP安装包里,不过这个安装包挺大的,10G。

ambari-2.7.3.0-centos7.tar.gz
HDP-3.1.0.0-centos7-rpm.tar.gz
HDP-UTILS-1.1.0.22-centos7.tar.gz
HDP-GPL-3.1.0.0-centos7-gpl.tar.gz

上面就是所需安装包的列表,下载到之后,放到本地搭建的http服务器中,在ambari安装中时使用。

结语

本篇文章主要讲了大数据集群搭建的架构设计和实现思路部分,后面文章会探讨上层应用的构建。我现在自己也在学前端,想自己实现一些web应用。关于大数据集群搭建、后台实现以及前端技术,可以私我加群互相交流。

基于docker使用Ambari搭建Hadoop是有难度的,谨慎尝试。

感谢每一次遇见

相关文章:

  • YOLOv5剪枝 | 模型剪枝理论篇 | 1/2
  • 结构体、枚举类型和联合体
  • 【兄弟反目成仇系列】:我只是写了一个爆炸信息窗口脚本,好兄弟追了我几条街~
  • 参加微软学生开发者峰会,了解Azure和GitHub……
  • 【数据结构练习题——查找】
  • imx6ull-arm开发板和电脑网线直连通信
  • 【目标检测】YOLOv5遇上知识蒸馏
  • 【每日渗透笔记】覆盖漏洞+修改隐藏数据实战尝试
  • 软件工程结构化设计
  • 异地远程群晖NAS教程【cpolar内网穿透】
  • pytorch-实现猴痘识别
  • 流动资金池:我们需要知道的一切
  • yarn集群NodeManager日志聚合慢问题解决方案
  • Vue--》Vue中实现数据代理
  • 【Python学习笔记】第二章循环:while循环,for循环,break和continue语句,死循环,循环的嵌套
  • nfs客户端进程变D,延伸linux的lock
  • node学习系列之简单文件上传
  • UMLCHINA 首席专家潘加宇鼎力推荐
  • windows下使用nginx调试简介
  • 创建一个Struts2项目maven 方式
  • 从伪并行的 Python 多线程说起
  • 诡异!React stopPropagation失灵
  • 记一次删除Git记录中的大文件的过程
  • 前端_面试
  • 前端性能优化——回流与重绘
  • 浅谈web中前端模板引擎的使用
  • 入职第二天:使用koa搭建node server是种怎样的体验
  • 算法-图和图算法
  • 深度学习之轻量级神经网络在TWS蓝牙音频处理器上的部署
  • kubernetes资源对象--ingress
  • ​【原创】基于SSM的酒店预约管理系统(酒店管理系统毕业设计)
  • ​一帧图像的Android之旅 :应用的首个绘制请求
  • # C++之functional库用法整理
  • # 透过事物看本质的能力怎么培养?
  • #QT(TCP网络编程-服务端)
  • (delphi11最新学习资料) Object Pascal 学习笔记---第13章第6节 (嵌套的Finally代码块)
  • (附表设计)不是我吹!超级全面的权限系统设计方案面世了
  • (附源码)ssm本科教学合格评估管理系统 毕业设计 180916
  • **《Linux/Unix系统编程手册》读书笔记24章**
  • . Flume面试题
  • .bat批处理(十):从路径字符串中截取盘符、文件名、后缀名等信息
  • .net core使用ef 6
  • .NET delegate 委托 、 Event 事件,接口回调
  • .NET/C# 项目如何优雅地设置条件编译符号?
  • .NET平台开源项目速览(15)文档数据库RavenDB-介绍与初体验
  • // an array of int
  • @RestControllerAdvice异常统一处理类失效原因
  • @开发者,一文搞懂什么是 C# 计时器!
  • []常用AT命令解释()
  • [100天算法】-二叉树剪枝(day 48)
  • [Android] 240204批量生成联系人,短信,通话记录的APK
  • [Android] Amazon 的 android 音视频开发文档
  • [Android]RecyclerView添加HeaderView出现宽度问题
  • [C puzzle book] types
  • [C#] 如何调用Python脚本程序