当前位置：首页 > news >正文

安装关系型数据库MySQL 安装大数据处理框架Hadoop

news 来源：原创 2024/5/8 0:14:43

一、简述Hadoop平台的起源、发展历史与应用现状。

Hadoop平台的起源

Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google FileSystem( GFS) 的启发。

2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。

Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。例如，如果您要 grep 一个 10TB 的巨型文件，会出现什么情况？在传统的系统上，这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题，采用并行执行机制，因此能大大提高效率。

演变关系

GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase

Hadoop平台的发展历史

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令，跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop [3] 最初只与网页索引有关，迅速发展成为分析大数据的领先平台。

目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司，该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司，在2012年，该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司，同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估的软件。

2004年—最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。
2005年12月—Nutch移植到新的框架，Hadoop在20个节点上稳定运行。
2006年1月—Doug Cutting加入雅虎。
2006年2月—Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
2006年2月—雅虎的网格计算团队采用Hadoop。
2006年4月—标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
2006年5月—雅虎建立了一个300个节点的Hadoop研究集群。
2006年5月—标准排序在500个节点上运行42个小时(硬件配置比4月的更好)。
2006年11月—研究集群增加到600个节点。
2006年12月—标准排序在20个节点上运行1.8个小时，100个节点3.3小时，500个节点5.2小时，900个节点7.8个小时。
2007年1月—研究集群到达900个节点。
2007年4月—研究集群达到两个1000个节点的集群。
2008年4月—赢得世界最快1TB数据排序在900个节点上用时209秒。
2008年7月—雅虎测试节点增加到4000个
2008年9月—Hive成为Hadoop的子项目
2008年11月—Google宣布其MapReduce用68秒对1TB的程序进行排序
2008年10月—研究集群每天装载10TB的数据。
2008年—淘宝开始投入研究基于Hadoop的系统–云梯。云梯总容量约9.3PB，共有1100台机器，每天处理18000道作业，扫描500TB数据。
2009年3月—17个集群总共24 000台机器。
2009年3月—Cloudera推出CDH（Cloudera’s Dsitribution Including Apache Hadoop）。
2009年4月—赢得每分钟排序，雅虎59秒内排序500GB(在1400个节点上)和173分钟内排序100TB数据(在3400个节点上)。
2009年5月—Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
2009年7月—Hadoop Core项目更名为Hadoop Common。
2009年7月—MapReduce和Hadoop Distributed File System(HDFS)成为Hadoop项目的独立子项目。
2009年7月—Avro和Chukwa成为Hadoop新的子项目。
2009年9月—亚联BI团队开始跟踪研究Hadoop。
2009年12月—亚联提出橘云战略，开始研究Hadoop。
2010年5月—Avro脱离Hadoop项目，成为Apache顶级项目。
2010年5月—HBase脱离Hadoop项目，成为Apache顶级项目。
2010年5月—IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights，包括基础版和企业版。
2010年9月—Hive( Facebook) 脱离Hadoop，成为Apache顶级项目。
2010年9月—Pig脱离Hadoop，成为Apache顶级项目。
2011年1月—ZooKeeper脱离Hadoop，成为Apache顶级项目。
2011年3月—Apache Hadoop获得Media Guardian Innovation Awards 。
2011年3月—Platform Computing宣布在它的Symphony软件中支持Hadoop MapReduce API。
2011年5月—Mapr Technologies公司推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop。
2011年5月—HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出，HCatalog主要用于解决数据存储、元数据的问题，主要解决HDFS的瓶颈，它提供了一个地方来存储数据的状态信息，这使得数据清理和归档工具可以很容易的进行处理。
2011年4月— SGI( Silicon Graphics International )基于SGI Rackable和CloudRack服务器产品线提供Hadoop优化的解决方案。
2011年5月— EMC为客户推出一种新的基于开源Hadoop解决方案的数据中心设备——GreenPlum HD，以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum是EMC在2010年7月收购的一家开源数据仓库公司。
2011年5月— 在收购了Engenio之后，NetApp推出与Hadoop应用结合的产品E5400存储系统。
2011年6月— Calxeda公司(之前公司的名字是Smooth-Stone)发起了“开拓者行动”，一个由10家软件公司组成的团队将为基于Calxeda即将推出的ARM系统上芯片设计的服务器提供支持，并为Hadoop提供低功耗服务器技术。
2011年6月— 数据集成供应商Informatica发布了其旗舰产品，产品设计初衷是处理当今事务和社会媒体所产生的海量数据，同时支持Hadoop。
2011年7月— Yahoo!和硅谷风险投资公司Benchmark Capital创建了Hortonworks公司，旨在让Hadoop更加鲁棒(可靠)，并让企业用户更容易安装、管理和使用Hadoop。
2011年8月— Cloudera公布了一项有益于合作伙伴生态系统的计划——创建一个生态系统，以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。
2011年8月— Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机。

Hadoop发展过程中的主要版本—— 版本演变图

红色：表示企业中用的最多的实际生产版本
绿色：表示企业中用的最多的alpha版本

Apache Hadoop的四大分支构成了三个系列的Hadoop版本：

0.20.X系列

　　　主要有两个特征：Append与Security

0.21.0/0.22.X系列

　　　整个Hadoop项目被分割成三个独立的模块：

　　　　1.Common模块

　　　　2.HDFS模块

　　　　3.Mapreduce模块

0.23.X系列

　　　包含基础库Common、分布式文件系统HDFS、资源管理框架YARN和运行在YARN上的Mapreduce四部分

2.X系列

　　　与0.23.X相比，2.X增加了NameNode HA和Wire compatibility等新特征

Hadoop的主要开发厂商

CLOUDERA、Hortonworks、IBM、ORACLE、EMC

国内外Hadoop应用的典型案例

国外

1.Yahoo

Yahoo的Hadoop应用主要包括以下几个方面：支持广告系统、用户行为分析、支持Web搜索、反垃圾邮件系统、会员反滥用、内容敏捷、个性化推荐

同时Pig研究并测试支持超大规模节点集群的Hadoop系统。

2.Facebook

Facebook使用Hadoop存储内部日志与多维数据，并以此作为报告、分析和机器学习的数据源。目前Hadoop集群的机器节点超过1400台，共计11?200个核心CPU，超过15PB原始存储容量，每个商用机器节点配置了8核CPU，12TB数据存储，主要使用StreamingAPI和JavaAPI编程接口。Facebook同时在Hadoop基础上建立了一个名为Hive的高级数据仓库框架，Hive已经正式成为基于Hadoop的Apache一级项目。此外，还开发了HDFS上的FUSE实现。

3.Adobe

Adobe主要使用Hadoop及HBase，同于支撑社会服务计算，以及结构化的数据存储和处理。大约有超过30个节点的Hadoop-HBase生产集群。Adobe将数据直接持续地存储在HBase中，并以HBase作为数据源运行MapReduce作业处理，然后将其运行结果直接存到HBase或外部系统。Adobe在2008年10月就已经将Hadoop和HBase应用于生产集群。

4.IBM

IBM蓝云也利用Hadoop来构建云基础设施。IBM蓝云使用的技术包括：Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并行工作量调度，并发布了自己的Hadoop发行版及大数据解决方案。

5.EBay

单集群超过532节点集群，单节点8核心CPU，容量超过5.3PB存储。大量使用的MapReduce的Java接口、Pig、Hive来处理大规模的数据，还使用HBase进行搜索优化和研究。

等等

国内

1.百度

百度的Hadoop集群为整个公司的数据团队、大搜索团队、社区产品团队、广告团队，以及LBS团体提供统一的计算和存储服务，主要应用包括：数据挖掘与分析、日志分析平台、数据仓库系统、推荐引擎系统、用户行为分析系统

同时百度在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统，以及统一的C++编程接口，并对Hadoop进行深度改造，开发了HadoopC++扩展HCE系统。

2.阿里巴巴（旧的数据，现在已转而使用阿里云了）

阿里巴巴的Hadoop集群截至2012年大约有3200台服务器，大约30?000物理CPU核心，总内存100TB，总的存储容量超过60PB，每天的作业数目超过150?000个，每天hivequery查询大于6000个，每天扫描数据量约为7.5PB，每天扫描文件数约为4亿，存储利用率大约为80%，CPU利用率平均为65%，峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户，为淘宝、天猫、一淘、聚划算、CBU、支付宝提供底层的基础计算和存储服务，主要应用包括：数据平台系统、搜索支撑、广告系统、数据魔方、量子统计、淘数据、推荐引擎系统、搜索排行榜等

为了便于开发，其还开发了WebIDE继承开发环境，使用的相关系统包括：Hive、Pig、Mahout、Hbase等。

3.腾讯

腾讯也是使用Hadoop最早的中国互联网公司之一，截至2012年年底，腾讯的Hadoop集群机器总量超过5000台，最大单集群约为2000个节点，并利用Hadoop-Hive构建了自己的数据仓库系统TDW，同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务，其支持以下产品：腾讯社交广告平台、搜搜（SOSO）、拍拍网、腾讯微博、腾讯罗盘、QQ会员、腾讯游戏支撑、QQ空间、朋友网、腾讯开放平台、财付通、手机QQ、QQ音乐

4.华为

华为公司也是Hadoop主要做出贡献的公司之一，排在Google和Cisco的前面，华为对Hadoop的HA方案，以及HBase领域有深入研究，并已经向业界推出了自己的基于Hadoop的大数据解决方案。

5.中国移动

中国移动于2010年5月正式推出大云BigCloud1.0，集群节点达到了1024。中国移动的大云基于Hadoop的MapReduce实现了分布式计算，并利用了HDFS来实现分布式存储，并开发了基于Hadoop的数据仓库系统HugeTable，并行数据挖掘工具集BC-PDM，以及并行数据抽取转化BC-ETL，对象存储系统BC-ONestd等系统，并开源了自己的BC-Hadoop

版本。中国移动主要在电信领域应用Hadoop，其规划的应用领域包括：经分KPI集中运算、经分系统ETL/DM、结算系统、信令系统、云计算资源池系统、物联网应用系统、E-mail、IDC服务等。