当前位置: 首页 > news >正文

Hadoop如何迎击大数据分析的挑战

文章讲的是 Hadoop如何迎击大数据分析的挑战大数据分析是现在十分火热的话题,从农业到工业、从金融到体育、从传统企业到初创公司,各行各业都在积极应用大数据分析,似乎你的企业不和大数据沾点边就会显得没有逼格一样。

Hadoop如何迎击大数据分析的挑战

  随着大数据分析的持续走红,大数据分析工具也呈现出了遍地开花的态势,我们今天要说的Hadoop就是其中之一。

  Hadoop是Apache开发的一个开源项目,短短几年的时间,我们就见证了Hadoop从无到有、从简陋到稳定的转变。目前Hadoop因其具有高度可扩展性,灵活性和成本效益,已经成为大数据分析的理想工具。

  Hadoop对大数据存储和预测分析有什么好处?

  Apache Hadoop软件库是一个框架,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理,它的可扩展性非常好,可以从单台服务器扩展到数以千计的服务器。Hadoop在大数据存储和分析方面表现十分出色:

  低故障率

  每台机器都会进行数据复制,这一特点也使得Hadoop成为大文件备份的一个好选择。当一个节点复制了一个数据块,那么同一数据集群中的其他节点也会复制。数据备份跨越多个节点,所以数据被永久改变或破坏的可能性非常小,系统的容错性也随之提高了。

  成本效益

  Hadoop是最具成本效益的大数据分析和存储解决方案之一。 根据Cloudera的研究,Hadoop存储数据的成本仅仅是其它大数据存储解决方案很小的一部分。

  Cloudera公司产品副总裁Zedlewski Zedlewski认为,目前网络存储的市场行情大约是1TB数据5000美元,在具体情况下可能会有价格的上下浮动。在数据库、数据集市、数据仓库以及相关的硬件领域,通常1TB数据的价格可能要达到10000美元到15000美元。

  灵活性

  Hadoop是一个非常灵活的解决方案,用户可以使用SQL轻松添加提取结构化和非结构化数据集。这一特点对医疗行业来说特别有价值,因为医疗行业需要不断地更新患者记录。根据Dezyre报告显示:,美国医疗保健行业内最大的软件及服务提供商Sage已经在利用Hadoop进行基因组学、癌症治疗以及患者生命监测等相关工作。

  可扩展性

  Hadoop支持高度可扩展,它可以存储TB级数据,并同时运行数千个数据节点。

  利用SQL迎击Hadoop和大数据分析的挑战

  Hadoop与SQL兼容,所以适用范围广泛,用户可以使用多种SQL方法来提取和使用Hadoop存储的大数据,如果已经熟练掌握了SQL,那么Hadoop就可能成为最佳的大数据分析解决方案。

  但是如果想要从Hadoop中提取数据,那么就需要一个复杂的SQL引擎,目前市面上有很多开源解决方案,Apache Hive就是其中之一。

  Apache Hive有三个主要功能:运行数据查询、汇总数据、大数据分析,它可以自动将SQL查询转换为Hadoop MapReduce作业,但是它有一个很大的缺点就是它随着数据集群的大小会有时间延迟的问题。

  “Hive本身就不是为OLTP工作负载设计的,所以不提供实时查询或行级更新,它更适合于大量仅附加数据(如Web日志)的批处理作业。”Hive在大数据集项目上的时间延迟十分明显,因此它不适合需要实时分析数据的可扩展项目。

  除了Hadoop Hive之外,还有一些其它的SQL引擎:

Hadoop如何迎击大数据分析的挑战

  Rick van der Lans报告表示:上图这些解决方案基本上都能够弥补Apache Hive的不足,它们的特性之一就是多语言持久性,这一特性意味着它们既可以跨数据库访问数据,也可以访问存储在Hadoop上的数据。另外,目前也有很多用于实时大数据分析的应用程序。

  InfoWorld报告显示目前Spark、Storm和DataTorrent是Hadoop实时大数据分析领域的三大领先解决方案,目前Hadoop中的流数据实时处理通常会选择Storm或Spark,而DataTorrent是开源自一个之前的商业产品,现在已经加入到了Hadoop战局中。


作者:田晓旭编译

来源:IT168

原文链接:Hadoop如何迎击大数据分析的挑战

相关文章:

  • [Samba] 一路走来
  • 联动优势:PureData数据中心案例分享
  • MySQL Connector C/C++ for VS2010
  • SaaS课堂:外贸企业如何选择适合自己的软件
  • Java多线程中wait语句的具体使用技巧
  • Google Chrome - 云计算时代的浏览器
  • 问题003:JDK文件夹下的bin有什么作用?javac.exe和java.exe双击后为什么一闪而过,没了?...
  • js javaScript中String添加replaceAll 方法
  • IBM Platform Computing:云计算与大数据的智慧粘合剂
  • document.compatMode 记录
  • 基于语音应用的10项最佳实践
  • maven maven-war-plugin 的配置【转】
  • 云计算平台概览
  • [转]SAP ECC 6.0与R/3的区别
  • [SDOI2005]区间
  • 【腾讯Bugly干货分享】从0到1打造直播 App
  • CODING 缺陷管理功能正式开始公测
  • Effective Java 笔记(一)
  • EOS是什么
  • ES10 特性的完整指南
  • If…else
  • leetcode-27. Remove Element
  • Mithril.js 入门介绍
  • vue--为什么data属性必须是一个函数
  • 闭包--闭包作用之保存(一)
  • 道格拉斯-普克 抽稀算法 附javascript实现
  • 对JS继承的一点思考
  • 对象管理器(defineProperty)学习笔记
  • 前端面试之闭包
  • 用简单代码看卷积组块发展
  • 在Mac OS X上安装 Ruby运行环境
  • 怎么把视频里的音乐提取出来
  • ​​​​​​​​​​​​​​Γ函数
  • ​力扣解法汇总946-验证栈序列
  • ​一些不规范的GTID使用场景
  • #LLM入门|Prompt#1.8_聊天机器人_Chatbot
  • (1) caustics\
  • (3)nginx 配置(nginx.conf)
  • (LeetCode) T14. Longest Common Prefix
  • (zt)基于Facebook和Flash平台的应用架构解析
  • (笔试题)合法字符串
  • (附源码)springboot电竞专题网站 毕业设计 641314
  • (三) prometheus + grafana + alertmanager 配置Redis监控
  • (生成器)yield与(迭代器)generator
  • (十一)图像的罗伯特梯度锐化
  • (四)Android布局类型(线性布局LinearLayout)
  • (转)创业家杂志:UCWEB天使第一步
  • .NET 实现 NTFS 文件系统的硬链接 mklink /J(Junction)
  • .NET程序员迈向卓越的必由之路
  • /run/containerd/containerd.sock connect: connection refused
  • @converter 只能用mysql吗_python-MySQLConverter对象没有mysql-connector属性’...
  • @test注解_Spring 自定义注解你了解过吗?
  • [ CTF ]【天格】战队WriteUp- 2022年第三届“网鼎杯”网络安全大赛(青龙组)
  • [ Linux 长征路第二篇] 基本指令head,tail,date,cal,find,grep,zip,tar,bc,unname
  • [bzoj 3124][sdoi 2013 省选] 直径