大数据技术导论
上QQ阅读APP看书,第一时间看更新

第2章 大数据生态系统

2.1 认识Hadoop

Google曾经面对这样一个问题,即大量的网页怎么存储,怎么快速搜索的问题,为此诞生了以GFS、Map-Reduce、BigTable为主题的三篇论文,这三篇论文的开源实现版本分别就是Hadoop的三个组件:HDFS、MapReduce和HBase,分别对应大数据存储、大数据分析计算和大数据管理。

Hadoop是一个用Java写好的软件,只要计算机安装好了jdk就可以部署Hadoop。图2.11展示了Hadoop生态系统。

图2.1 Hadoop生态系统

Hadoop生态系统最核心的模块是HDFS(Hadoop Distributed File System)和MapReduce。