Apache Hadoop的核心组成及其架构
核心组成
Apache Hadoop 是一个开源的分布式存储与计算框架,它主要由以下几个核心组件组成:
- Hadoop Distributed File System (HDFS): HDFS 是 Hadoop 的分布式文件系统,它设计用于存储大量数据,并提供 高吞吐率的数据访问,通过将数据分块存储在多个节点上,实现数据的冗余存储和容错。
- Hadoop YARN (Yet Another Resource Negotiator): YARN 是 Hadoop 的资源管理层,负责管理计算资源(如 CPU 和内存),并为运行在 Hadoop 集群上的应用程序分配资源。YARN 引入了资源调度和作业管理的概念,使得 Hadoop 能够运行多种数据处理框架。
- Hadoop MapReduce: MapReduce 是 Hadoop 的编程模型,用于并行处理大规模数据集。MapReduce 工作流程分为两个阶段:Map 阶段和 Reduce 阶段,通过 Map 函数处理输入数据,然后通过 Reduce 函数聚合处理结果。
Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块
除了这三个核心组件,Hadoop 生态系统还包含许多其他的项目和工具,如:
- Hadoop Common:提供了 Hadoop 运行所需的公共库和工具。
- Hive:一个建立在 Hadoop 之上的数据仓库基础设施,提供 SQL 查询语言 SQL(HiveQL)