当前位置: 首页 > news >正文

hadoop和spark的区别

hadoop和spark的区别 学习hadoop已经有很长一段时间了,好像是二三月份的时候朋友给了一个国产Hadoop发行版下载地址,因为还是在学习阶段就下载了一个三节点的学习版玩一下。在研究、学习hadoop的朋友可以去找一下看看(发行版 大快DKhadoop,去大快的网站上应该可以下载到的。)

在学习hadoop的时候查询一些资料的时候经常会看到有比较hadoop和spark的,对于初学者来说难免会有点搞不清楚这二者到底有什么大的区别。我记得刚开始接触大数据这方面内容的时候,也就这个问题查阅了一些资料,在《FreeRCH大数据一体化开发框架》的这篇说明文档中有就Hadoop和spark的区别进行了简单的说明,但我觉得解释的也不是特别详细。我把个人认为解释的比较好的一个观点分享给大家: 它主要是从四个方面对Hadoop和spark进行了对比分析: 1、目的:首先需要明确一点,hadoophe spark 这二者都是大数据框架,即便如此二者各自存在的目的是不同的。Hadoop是一个分布式的数据基础设施,它是将庞大的数据集分派到由若干台计算机组成的集群中的多个节点进行存储。Spark是一个专门用来对那些分布式存储的大数据进行处理的工具,spark本身并不会进行分布式数据的存储。 2、两者的部署:Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。所以使用Hadoop则可以抛开spark,而直接使用Hadoop自身的mapreduce完成数据的处理。Spark是不提供文件管理系统的,但也不是只能依附在Hadoop上,它同样可以选择其他的基于云的数据系统平台,但spark默认的一般选择的还是hadoop。 3、数据处理速度:Spark,拥有Hadoop、 MapReduce所具有能更好地适用于数据挖掘与机器学习等需要迭代的的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。 4、数据安全恢复:Hadoop每次处理的后的数据是写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理;spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集中,这些数据对象既可以放在内存,也可以放在磁盘,所以spark同样可以完成数据的安全恢复。

相关文章:

  • 解决Composer 使用时要求输入授权用户名密码问题
  • Java实现视频网站的视频上传、视频转码、视频关键帧抽图, 及视频播放功能
  • gitlab 502问题解决
  • CEF与代理
  • VS2010安装与启动
  • jQuery快速入门
  • 线下比特币现金交易的区块链创企CoinText.io完成60万美元种子轮融资
  • SCOI2008着色方案(记忆化搜索)
  • 高性能iOS应用开发(二):应用的生命周期
  • Blockathon(2018)上海竞赛项目成果今天揭晓
  • 版本
  • idea的安装和学生申请免费使用
  • Python自动化开发学习-爬虫2
  • hadoop最新发行稳定版:DKHadoop版本选择详解
  • 多路复用实现单服百万级别RPS吞吐
  • (十五)java多线程之并发集合ArrayBlockingQueue
  • 【Under-the-hood-ReactJS-Part0】React源码解读
  • JS+CSS实现数字滚动
  • js作用域和this的理解
  • PHP 的 SAPI 是个什么东西
  • Selenium实战教程系列(二)---元素定位
  • uni-app项目数字滚动
  • vue2.0项目引入element-ui
  • 基于MaxCompute打造轻盈的人人车移动端数据平台
  • 聚类分析——Kmeans
  • ionic入门之数据绑定显示-1
  • MyCAT水平分库
  • Unity3D - 异步加载游戏场景与异步加载游戏资源进度条 ...
  • 湖北分布式智能数据采集方法有哪些?
  • #LLM入门|Prompt#3.3_存储_Memory
  • #NOIP 2014# day.1 T3 飞扬的小鸟 bird
  • #NOIP 2014# day.2 T2 寻找道路
  • #QT(串口助手-界面)
  • #在线报价接单​再坚持一下 明天是真的周六.出现货 实单来谈
  • (java)关于Thread的挂起和恢复
  • (附源码)spring boot建达集团公司平台 毕业设计 141538
  • (接口封装)
  • (四)docker:为mysql和java jar运行环境创建同一网络,容器互联
  • (一)为什么要选择C++
  • .NET CORE 3.1 集成JWT鉴权和授权2
  • .NET Core 成都线下面基会拉开序幕
  • .NET Micro Framework初体验
  • .net 怎么循环得到数组里的值_关于js数组
  • .NET/C# 使用反射注册事件
  • .NET的微型Web框架 Nancy
  • .NET连接MongoDB数据库实例教程
  • :=
  • [BJDCTF2020]The mystery of ip
  • [BZOJ] 1001: [BeiJing2006]狼抓兔子
  • [BZOJ3223]文艺平衡树
  • [C# 基础知识系列]专题十六:Linq介绍
  • [C#基础知识]专题十三:全面解析对象集合初始化器、匿名类型和隐式类型
  • [IE技巧] 如何关闭Windows Server版IE的安全限制
  • [Linux]进程间通信(system V共享内存 | system V信号量)
  • [office] excel2003进行可视性加密的方法 #媒体#其他#知识分享