当前位置: 首页 > news >正文

安装关系型数据库MySQL 安装大数据处理框架Hadoop

一、简述Hadoop平台的起源、发展历史与应用现状。

Hadoop平台的起源

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google FileSystem( GFS) 的启发。
2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
Hadoop 是最受欢迎的在 Internet 上对搜索 关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要 grep 一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用 并行执行机制,因此能大大提高效率。
 
演变关系
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase
 
Hadoop平台的发展历史
Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop  [3] 最初只与网页索引有关,迅速发展成为分析大数据的领先平台。
目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估的软件。
 
2004年—最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。
2005年12月—Nutch移植到新的框架,Hadoop在20个节点上稳定运行。
2006年1月—Doug Cutting加入雅虎。
2006年2月—Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
2006年2月—雅虎的网格计算团队采用Hadoop。
2006年4月—标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
2006年5月—雅虎建立了一个300个节点的Hadoop研究集群。
2006年5月—标准排序在500个节点上运行42个小时(硬件配置比4月的更好)。
2006年11月—研究集群增加到600个节点。
2006年12月—标准排序在20个节点上运行1.8个小时,100个节点3.3小时,500个节点5.2小时,900个节点7.8个小时。
2007年1月—研究集群到达900个节点。
2007年4月—研究集群达到两个1000个节点的集群。
2008年4月—赢得世界最快1TB数据排序在900个节点上用时209秒。
2008年7月—雅虎测试节点增加到4000个
2008年9月—Hive成为Hadoop的子项目
2008年11月—Google宣布其MapReduce用68秒对1TB的程序进行排序
2008年10月—研究集群每天装载10TB的数据。
2008年—淘宝开始投入研究基于Hadoop的系统–云梯。云梯总容量约9.3PB,共有1100台机器,每天处理18000道作业,扫描500TB数据。
2009年3月—17个集群总共24 000台机器。
2009年3月—Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop)。
2009年4月—赢得每分钟排序,雅虎59秒内排序500GB(在1400个节点上)和173分钟内排序100TB数据(在3400个节点上)。
2009年5月—Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
2009年7月—Hadoop Core项目更名为Hadoop Common。
2009年7月—MapReduce和Hadoop Distributed File System(HDFS)成为Hadoop项目的独立子项目。
2009年7月—Avro和Chukwa成为Hadoop新的子项目。
2009年9月—亚联BI团队开始跟踪研究Hadoop。
2009年12月—亚联提出橘云战略,开始研究Hadoop。
2010年5月—Avro脱离Hadoop项目,成为Apache顶级项目。
2010年5月—HBase脱离Hadoop项目,成为Apache顶级项目。
2010年5月—IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。
2010年9月—Hive( Facebook) 脱离Hadoop,成为Apache顶级项目。
2010年9月—Pig脱离Hadoop,成为Apache顶级项目。
2011年1月—ZooKeeper脱离Hadoop,成为Apache顶级项目。
2011年3月—Apache Hadoop获得Media Guardian Innovation Awards 。
2011年3月—Platform Computing宣布在它的Symphony软件中支持Hadoop MapReduce API。
2011年5月—Mapr Technologies公司推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop。
2011年5月—HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出,HCatalog主要用于解决数据存储、元数据的问题,主要解决HDFS的瓶颈,它提供了一个地方来存储数据的状态信息,这使得数据清理和归档工具可以很容易的进行处理。
2011年4月— SGI( Silicon Graphics International )基于SGI Rackable和CloudRack服务器产品线提供Hadoop优化的解决方案。
2011年5月— EMC为客户推出一种新的基于开源Hadoop解决方案的数据中心设备——GreenPlum HD,以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum是EMC在2010年7月收购的一家开源数据仓库公司。
2011年5月— 在收购了Engenio之后,NetApp推出与Hadoop应用结合的产品E5400存储系统。
2011年6月— Calxeda公司(之前公司的名字是Smooth-Stone)发起了“开拓者行动”,一个由10家软件公司组成的团队将为基于Calxeda即将推出的ARM系统上芯片设计的服务器提供支持,并为Hadoop提供低功耗服务器技术。
2011年6月— 数据集成供应商Informatica发布了其旗舰产品,产品设计初衷是处理当今事务和社会媒体所产生的海量数据,同时支持Hadoop。
2011年7月— Yahoo!和硅谷风险投资公司Benchmark Capital创建了Hortonworks公司,旨在让Hadoop更加鲁棒(可靠),并让企业用户更容易安装、管理和使用Hadoop。
2011年8月— Cloudera公布了一项有益于合作伙伴生态系统的计划——创建一个生态系统,以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。
2011年8月— Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机。
 
Hadoop发展过程中的主要版本—— 版本演变图 
红色:表示企业中用的最多的实际生产版本 
绿色:表示企业中用的最多的alpha版本 

 

Apache Hadoop的四大分支构成了三个系列的Hadoop版本:

  • 0.20.X系列

   主要有两个特征:Append与Security

  • 0.21.0/0.22.X系列

   整个Hadoop项目被分割成三个独立的模块:

    1.Common模块

    2.HDFS模块

    3.Mapreduce模块

  • 0.23.X系列

   包含基础库Common、分布式文件系统HDFS、资源管理框架YARN和运行在YARN上的Mapreduce四部分

  • 2.X系列

   与0.23.X相比,2.X增加了NameNode HA和Wire compatibility等新特征

 

Hadoop的主要开发厂商

CLOUDERA、Hortonworks、IBM、ORACLE、EMC

 

国内外Hadoop应用的典型案例

国外

1.Yahoo

Yahoo的Hadoop应用主要包括以下几个方面:支持广告系统、用户行为分析、支持Web搜索、反垃圾邮件系统、会员反滥用、内容敏捷、个性化推荐

同时Pig研究并测试支持超大规模节点集群的Hadoop系统。

2.Facebook

Facebook使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。目前Hadoop集群的机器节点超过1400台,共计11?200个核心CPU,超过15PB原始存储容量,每个商用机器节点配置了8核CPU,12TB数据存储,主要使用StreamingAPI和JavaAPI编程接口。Facebook同时在Hadoop基础上建立了一个名为Hive的高级数据仓库框架,Hive已经正式成为基于Hadoop的Apache一级项目。此外,还开发了HDFS上的FUSE实现。

3.Adobe

Adobe主要使用Hadoop及HBase,同于支撑社会服务计算,以及结构化的数据存储和处理。大约有超过30个节点的Hadoop-HBase生产集群。Adobe将数据直接持续地存储在HBase中,并以HBase作为数据源运行MapReduce作业处理,然后将其运行结果直接存到HBase或外部系统。Adobe在2008年10月就已经将Hadoop和HBase应用于生产集群。

4.IBM

IBM蓝云也利用Hadoop来构建云基础设施。IBM蓝云使用的技术包括:Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并行工作量调度,并发布了自己的Hadoop发行版及大数据解决方案。

5.EBay

单集群超过532节点集群,单节点8核心CPU,容量超过5.3PB存储。大量使用的MapReduce的Java接口、Pig、Hive来处理大规模的数据,还使用HBase进行搜索优化和研究。

等等

国内

1.百度

百度的Hadoop集群为整个公司的数据团队、大搜索团队、社区产品团队、广告团队,以及LBS团体提供统一的计算和存储服务,主要应用包括:数据挖掘与分析、日志分析平台、数据仓库系统、推荐引擎系统、用户行为分析系统

同时百度在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统,以及统一的C++编程接口,并对Hadoop进行深度改造,开发了HadoopC++扩展HCE系统。

2.阿里巴巴(旧的数据,现在已转而使用阿里云了)

阿里巴巴的Hadoop集群截至2012年大约有3200台服务器,大约30?000物理CPU核心,总内存100TB,总的存储容量超过60PB,每天的作业数目超过150?000个,每天hivequery查询大于6000个,每天扫描数据量约为7.5PB,每天扫描文件数约为4亿,存储利用率大约为80%,CPU利用率平均为65%,峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户,为淘宝、天猫、一淘、聚划算、CBU、支付宝提供底层的基础计算和存储服务,主要应用包括:数据平台系统、搜索支撑、广告系统、数据魔方、量子统计、淘数据、推荐引擎系统、搜索排行榜等

为了便于开发,其还开发了WebIDE继承开发环境,使用的相关系统包括:Hive、Pig、Mahout、Hbase等。

3.腾讯

腾讯也是使用Hadoop最早的中国互联网公司之一,截至2012年年底,腾讯的Hadoop集群机器总量超过5000台,最大单集群约为2000个节点,并利用Hadoop-Hive构建了自己的数据仓库系统TDW,同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务,其支持以下产品:腾讯社交广告平台、搜搜(SOSO)、拍拍网、腾讯微博、腾讯罗盘、QQ会员、腾讯游戏支撑、QQ空间、朋友网、腾讯开放平台、财付通、手机QQ、QQ音乐

4.华为

华为公司也是Hadoop主要做出贡献的公司之一,排在Google和Cisco的前面,华为对Hadoop的HA方案,以及HBase领域有深入研究,并已经向业界推出了自己的基于Hadoop的大数据解决方案。

5.中国移动

中国移动于2010年5月正式推出大云BigCloud1.0,集群节点达到了1024。中国移动的大云基于Hadoop的MapReduce实现了分布式计算,并利用了HDFS来实现分布式存储,并开发了基于Hadoop的数据仓库系统HugeTable,并行数据挖掘工具集BC-PDM,以及并行数据抽取转化BC-ETL,对象存储系统BC-ONestd等系统,并开源了自己的BC-Hadoop

版本。中国移动主要在电信领域应用Hadoop,其规划的应用领域包括:经分KPI集中运算、经分系统ETL/DM、结算系统、信令系统、云计算资源池系统、物联网应用系统、E-mail、IDC服务等。

二、Hadoop的安装与配置

  • 创建Hadoop用户

  • 安装ssh并完成ssh无密码登录

  • 完成Hadoop的安装

  • 格式化namenode

 

  • 启动namenode及datanode

  • 完成伪分布式Hadoop的配置

  • 进行伪分布式实例的操作

  • 完成Hadoop伪分布式实例的运行结果,结果如下图所示

  • 关闭伪分布式Hadoop的操作

 

伪分布式Hadoop安装及配置完成。

转载于:https://www.cnblogs.com/CM33/p/10822601.html

相关文章:

  • make: *** 没有指明目标并且找不到 makefile。 停止。
  • 第一篇 变量及数据类型
  • SpringBoot2+Druid+JdbcTemplate+MySql实现增删改查
  • Luogu5363 SDOI2019移动金币(博弈+动态规划)
  • P1099 树网的核
  • Spectral analysis——光谱分析
  • iptables
  • 视觉暂留:视觉暂留
  • qt环境配置
  • 提升Scrapy框架爬取数据效率的五种方式
  • 详解Linux运维工程师必备技能
  • c++实现字符串分割函数--split()
  • 基于预计算的全局光照技术
  • java实现多线程(下)
  • 球谐光照——杂谈——待完成
  • [deviceone开发]-do_Webview的基本示例
  • 【跃迁之路】【641天】程序员高效学习方法论探索系列(实验阶段398-2018.11.14)...
  • 0x05 Python数据分析,Anaconda八斩刀
  • 10个最佳ES6特性 ES7与ES8的特性
  • const let
  • go语言学习初探(一)
  • js数组之filter
  • v-if和v-for连用出现的问题
  • Vue 动态创建 component
  • 基于 Babel 的 npm 包最小化设置
  • 你不可错过的前端面试题(一)
  • 排序算法之--选择排序
  • 前端性能优化--懒加载和预加载
  • 全栈开发——Linux
  • 实战:基于Spring Boot快速开发RESTful风格API接口
  • 使用putty远程连接linux
  • 提升用户体验的利器——使用Vue-Occupy实现占位效果
  • 我的面试准备过程--容器(更新中)
  • 译自由幺半群
  • CMake 入门1/5:基于阿里云 ECS搭建体验环境
  • 没有任何编程基础可以直接学习python语言吗?学会后能够做什么? ...
  • ​无人机石油管道巡检方案新亮点:灵活准确又高效
  • #pragma pack(1)
  • (31)对象的克隆
  • (poj1.2.1)1970(筛选法模拟)
  • (WSI分类)WSI分类文献小综述 2024
  • (附源码)springboot 校园学生兼职系统 毕业设计 742122
  • (黑马C++)L06 重载与继承
  • (免费领源码)Python#MySQL图书馆管理系统071718-计算机毕业设计项目选题推荐
  • (转)AS3正则:元子符,元序列,标志,数量表达符
  • (转)大道至简,职场上做人做事做管理
  • *Algs4-1.5.25随机网格的倍率测试-(未读懂题)
  • .MSSQLSERVER 导入导出 命令集--堪称经典,值得借鉴!
  • .NET gRPC 和RESTful简单对比
  • .NET 读取 JSON格式的数据
  • .net 获取url的方法
  • .NET 将混合了多个不同平台(Windows Mac Linux)的文件 目录的路径格式化成同一个平台下的路径
  • .Net6 Api Swagger配置
  • [ HTML + CSS + Javascript ] 复盘尝试制作 2048 小游戏时遇到的问题
  • [ vulhub漏洞复现篇 ] Apache APISIX 默认密钥漏洞 CVE-2020-13945