hadoop生态系统的几个相关结构图

2023-05-25

1、hadoop1.0阶段架构

2、hadoop2.0阶段架构

3、hdfs架构

Active Namenode
主 Master(只有一个)，管理 HDFS 名称空间，管理数据块投影信息；配备复制策略；处理客户端读写请求

Secondary NameNode

NameNode 热备；定期合并 fsimage 和 fsedits，推送到 NameNode；当 Active NameNode 当出现故障时，迅速切换到新的。 Active NameNode。

Datanode

Slave（有多个）；存储实际数据块；执行数据块阅读 / 写

Client

与 NameNode 互动，获取文件定位信息； DataNode 互动，读取或写入数据；管理； HDFS、浏览 HDFS。

4、MapReduce
来源于 Google 的 MapReduce 论文
发表于 2004 年 12 月
Hadoop MapReduce 是 Google MapReduce 克隆版
特点是MapReduce
扩展性好
高容错性
适合 PB 离线处理等级以上海量数据

5、yarn架构

6、hadoop1.与hadoop2.0对比图

7、Hive(基于MR的数据仓库)
最初用于海量结构化日志数据分析，由Facebook开源；ETL（Extraction-Transformation-Loading）在Hadoop上构建工具的数据仓库；使用数据计算； MapReduce，HDFS用于数据存储。
Hive 定义一种类型 SQL 查询语言——HQL
和SQL差不多，但是不一样。
通常用于离线数据处理(选择 MapReduce）；可以认为是一个 HQL→MR 语言翻译器

8、Hbase(分布式数据库)
源自 Google 的 Bigtable 论文
发表于 2006 年 11 月
Hbase 是 Google Bigtable 克隆版

9、Hadoop 发行版(开源版)

0 踩