当前位置: 首页 > news >正文

Hadoop起源

 

本文来自Doug Cutting为《Hadoop权威指南》所作之序,感觉读一下还是挺有收获的。

 


 

Hadoop 起源于Nutch项目。我们几个人有一段时间一直在尝试构建一个开源的Web搜索引擎,但始终无法有效地将计算任务分配到多台计算机上,即使就只是屈指可数的几台。直到谷歌发表的GFS和MapReduce的相关论文之后,我们的思路才清晰起来。他们设计的系统已经可以精准地解决我们在Nutch项目中面临的问题。于是,我们(两个半天工作制的人)开始着手尝试构建这些系统,将其作为Nutch的一部分。

 

我们终于让Nutch在20台机器上得以平稳运行,但是又很快意识一点:要想应对大规模的Web数据计算,还必须得让Nutch能在几千台机器上运行,不过这个工作远远不是两个半天工作制开发人员能够搞定的。

 

几乎就在那个时候,雅虎也对这项技术产生了浓厚的兴趣并迅速组建了一个开发团队。我有幸成为其中一员。我们剥离出Nutch的分布式计算模块,将其称为"Hadoop"。在雅虎的帮助下,Hadoop很快能够真正处理海量的Web数据了。

 


 

结论:

Hadoop的前身原来是为了Nutch而服务的,本质上是一个分布式的计算模块;

灵感来源于谷歌的GFS和MapReduce;

Hadoop是为了处理海量的数据;

Hadoop的两个核心:一个是HDFS文件系统,另一个则是MapReduce计算框架;

 

下一篇,快速拜读GFS和MapReduce的论文。

相关文章:

  • HDU2255 奔小康赚大钱 【KM算法】
  • RxJava简介与入门(一)
  • 手把手教你用1行命令实现人脸识别
  • 【编程之美】字符串移位包含的问题(续)
  • 前端同学大福利,最全的面试题目整理
  • 随机ID添加
  • 新概念英语(1-115)Knock! Knock!
  • Python 数据结构
  • CTF---密码学入门第七题 杯酒人生
  • Wireshark在Windows 7无法正常运行
  • 优势独显,机会点亮,2017义乌装博会下月启幕
  • Mybatis Generator for SQL Server
  • 磁盘格式化 磁盘挂载 手动增加swap空间
  • 标准sql执行顺序
  • EntityFramework 插件之EntityFramework.Extended (批量处理)
  • [LeetCode] Wiggle Sort
  • co模块的前端实现
  • docker-consul
  • Java,console输出实时的转向GUI textbox
  • jquery ajax学习笔记
  • js继承的实现方法
  • mongodb--安装和初步使用教程
  • -- 查询加强-- 使用如何where子句进行筛选,% _ like的使用
  • 浮动相关
  • 聊聊spring cloud的LoadBalancerAutoConfiguration
  • 前端代码风格自动化系列(二)之Commitlint
  • 为视图添加丝滑的水波纹
  • 赢得Docker挑战最佳实践
  • # 20155222 2016-2017-2 《Java程序设计》第5周学习总结
  • # 飞书APP集成平台-数字化落地
  • #include到底该写在哪
  • #laravel 通过手动安装依赖PHPExcel#
  • #Linux(帮助手册)
  • #QT(智能家居界面-界面切换)
  • $ git push -u origin master 推送到远程库出错
  • (2020)Java后端开发----(面试题和笔试题)
  • (ibm)Java 语言的 XPath API
  • (附源码)php新闻发布平台 毕业设计 141646
  • (附源码)springboot 个人网页的网站 毕业设计031623
  • (九十四)函数和二维数组
  • (离散数学)逻辑连接词
  • (排序详解之 堆排序)
  • (区间dp) (经典例题) 石子合并
  • (数据结构)顺序表的定义
  • (四)汇编语言——简单程序
  • (终章)[图像识别]13.OpenCV案例 自定义训练集分类器物体检测
  • (转)IIS6 ASP 0251超过响应缓冲区限制错误的解决方法
  • (转)linux自定义开机启动服务和chkconfig使用方法
  • ... fatal error LINK1120:1个无法解析的外部命令 的解决办法
  • ./configure、make、make install 命令
  • .net 4.0发布后不能正常显示图片问题
  • .net core 6 集成和使用 mongodb
  • .net core开源商城系统源码,支持可视化布局小程序
  • .NetCore Flurl.Http 升级到4.0后 https 无法建立SSL连接
  • .NET建议使用的大小写命名原则