04 Hadoop思想与原理

2021/10/28 23:15:40

编程Tag： 原理数据版本 Google Hadoop 结点 04 EditLog

本文主要是介绍04 Hadoop思想与原理，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

1.用图文与自己的话，简要描述Hadoop起源与发展阶段

为什么叫Hadoop? Logo为什么是黄色的大象？

狭义上来说，Hadoop就是单独指代Hadoop这个软件（HDFS+MAPREDUCE）
广义上来说，Hadoop指代大数据的一个生态圈（Hadoop生态圈），包括很多其他的软件。
在这里插入图片描述

Hadoop的历史版本介绍

0.x系列版本：Hadoop当中最早的一个开源版本，在此基础上演变而来的1.x以及2.x的版本
1.x版本系列：Hadoop版本当中的第二代开源版本，主要修复0.x版本的一些bug等
2.x版本系列：架构产生重大变化，引入了yarn平台等许多新特性
在这里插入图片描述

Hadoop的起源

2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。
2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
2006年2月被分离出来，成为一套完整独立的软件，起名为Hadoop
Hadoop名字不是一个缩写，而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具象命名的。
Hadoop的成长过程
Lucene–>Nutch—>Hadoop

总结起来，Hadoop起源于Google的三大论文
GFS：Google的分布式文件系统Google File System
MapReduce：Google的MapReduce开源分布式并行计算框架
BigTable：一个大型的分布式数据库

演变关系
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase