当前位置: 首页 > news >正文

大数据从业者应该知道的开源工具(全)

前言

想要成为大数据工程师这些开源工具你要有所了解

一、Hadoop相关工具

1. Hadoop

Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。

支持的操作系统:Windows、Linux和OS X。

相关链接:http://hadoop.apache.org

2. Ambari

作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。有些开发人员想把Ambari的功能整合到自己的应用程序当中,Ambari也为他们提供了充分利用REST(代表性状态传输协议)的API。

支持的操作系统:Windows、Linux和OS X。

相关链接:http://ambari.apache.org

3. Avro

这个Apache项目提供了数据序列化系统,拥有丰富的数据结构和紧凑格式。模式用JSON来定义,它很容易与动态语言整合起来。

支持的操作系统:与操作系统无关。

相关链接:http://avro.apache.org

4. Cascading

Cascading是一款基于Hadoop的应用程序开发平台。提供商业支持和培训服务。

支持的操作系统:与操作系统无关。

相关链接:http://www.cascading.org/projects/cascading/

5. Chukwa

Chukwa基于Hadoop,可以收集来自大型分布式系统的数据,用于监控。它还含有用于分析和显示数据的工具。

支持的操作系统:Linux和OS X。

相关链接:http://chukwa.apache.org

6. Flume

Flume可以从其他应用程序收集日志数据,然后将这些数据送入到Hadoop。官方网站声称:“它功能强大、具有容错性,还拥有可以调整优化的可靠性机制和许多故障切换及恢复机制。”

支持的操作系统:Linux和OS X。

相关链接:https://cwiki.apache.org/confluence/display/FLUME/Home

7. HBase

HBase是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。它有点类似谷歌的Bigtable,不过基于Hadoop和Hadoop分布式文件系统(HDFS)而建。

支持的操作系统:与操作系统无关。

相关链接:http://hbase.apache.org

8. Hadoop分布式文件系统(HDFS)

HDFS是面向Hadoop的文件系统,不过它也可以用作一种独立的分布式文件系统。它基于Java,具有容错性、高度扩展性和高度配置性。

支持的操作系统:Windows、Linux和OS X。

相关链接:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

9. Hive

Apache Hive是面向Hadoop生态系统的数据仓库。它让用户可以使用HiveQL查询和管理大数据,这是一种类似SQL的语言。

支持的操作系统:与操作系统无关。

相关链接:http://hive.apache.org

10. Hivemall

Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。

支持的操作系统:与操作系统无关。

相关链接:https://github.com/myui/hivemall

11. Mahout

12. MapReduce

13. Oozie

14. Pig

15. Sqoop

16. Spark

17. Tez

18. Zookeeper

二、大数据分析平台和工具

19. Disco

20. HPCC

21. Lumify

22. Pandas

23. Storm

三、数据库/数据仓库

24. Blazegraph

25. Cassandra

26. CouchDB

27. FlockDB

28. Hibari

29. Hypertable

30. Impala

31. InfoBright社区版

32. MongoDB

33. Neo4j

34. OrientDB

35. Pivotal Greenplum Database

36. Riak

37. Redis

四、商业智能

38. Talend Open Studio

39. Jaspersoft

40. Pentaho

41. SpagoBI

42. KNIME

43. BIRT

五、数据挖掘

44.DataMelt

45. KEEL

46. Orange

47. RapidMiner

48. Rattle

49. SPMF

50. Weka

六、查询引擎

51. Drill

七、编程语言

52. R

53. ECL

八、大数据搜索

54. Lucene

九、内存中技术

链接

由于由于链接太多,我做了一个word文档,由于简书不能上传文件,需要答案可以加小编的qq交流群531629188,在里面直接获取文档,

不管你是小白还是大牛,

小编我都挺欢迎,今天的已经资讯上传到群文件,不定期分享干货,

包括我自己整理的一份最新的适合2018年学习的大数据教程,欢迎初学和进阶中的小伙伴。

相关文章:

  • python--内置函数
  • 什么是大数据挖掘技术
  • C基础 工程中常用的排序
  • 你可能不知道的大数据开发的十个技巧
  • 如何在万亿级别规模的数据量上使用Spark
  • angular指令详解--自定义指令
  • 大数据工程师面试题之互联网公司篇
  • 教你如何成为Spark大数据高手
  • Java基础语法学习4——常量
  • 大数据未来发展行情之是否值得转职学习
  • 深入理解call apply bind方法
  • java程序员转行大数据的优势
  • 05、ListActivity的使用
  • 如何选择大数据的编程语言
  • css活用,半星星的效果
  • JavaScript 如何正确处理 Unicode 编码问题!
  • 《Javascript数据结构和算法》笔记-「字典和散列表」
  • 《Java编程思想》读书笔记-对象导论
  • Python 基础起步 (十) 什么叫函数?
  • Python_网络编程
  • React中的“虫洞”——Context
  • Spring技术内幕笔记(2):Spring MVC 与 Web
  • 那些年我们用过的显示性能指标
  • 软件开发学习的5大技巧,你知道吗?
  • 异步
  • 与 ConTeXt MkIV 官方文档的接驳
  • 怎样选择前端框架
  • ​你们这样子,耽误我的工作进度怎么办?
  • ​软考-高级-系统架构设计师教程(清华第2版)【第15章 面向服务架构设计理论与实践(P527~554)-思维导图】​
  • ​直流电和交流电有什么区别为什么这个时候又要变成直流电呢?交流转换到直流(整流器)直流变交流(逆变器)​
  • #{}和${}的区别是什么 -- java面试
  • $.ajax()
  • ( 10 )MySQL中的外键
  • (17)Hive ——MR任务的map与reduce个数由什么决定?
  • (2)MFC+openGL单文档框架glFrame
  • (ctrl.obj) : error LNK2038: 检测到“RuntimeLibrary”的不匹配项: 值“MDd_DynamicDebug”不匹配值“
  • (ZT) 理解系统底层的概念是多么重要(by趋势科技邹飞)
  • (待修改)PyG安装步骤
  • (第一天)包装对象、作用域、创建对象
  • (非本人原创)史记·柴静列传(r4笔记第65天)
  • (附源码)ssm教材管理系统 毕业设计 011229
  • (黑马出品_高级篇_01)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式
  • (欧拉)openEuler系统添加网卡文件配置流程、(欧拉)openEuler系统手动配置ipv6地址流程、(欧拉)openEuler系统网络管理说明
  • (原創) 人會胖會瘦,都是自我要求的結果 (日記)
  • .NET Core 和 .NET Framework 中的 MEF2
  • .NET Micro Framework初体验
  • .NET 使用 ILMerge 合并多个程序集,避免引入额外的依赖
  • .net(C#)中String.Format如何使用
  • .netcore 如何获取系统中所有session_ASP.NET Core如何解决分布式Session一致性问题
  • .net和jar包windows服务部署
  • .net中应用SQL缓存(实例使用)
  • 。Net下Windows服务程序开发疑惑
  • @manytomany 保存后数据被删除_[Windows] 数据恢复软件RStudio v8.14.179675 便携特别版...
  • @RequestParam详解
  • [ CTF ]【天格】战队WriteUp- 2022年第三届“网鼎杯”网络安全大赛(青龙组)