大数据技术导论
上QQ阅读APP看书,第一时间看更新

1.1.3 大数据生命周期

大数据采集、存储、处理、解释和应用,形成了大数据生命周期(见图1.8)。

1)数据采集:ETL(Extract-Transform-Load)负责将分布的、异构数据源中的数据,如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

2)数据存储:数据存储方式主要有关系型数据库SQL、非关系型数据库NoSQL、分布式数据库NewSQL等。

图1.8 大数据生命周期

3)数据分析:包括假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、回归分析、因子分析、聚类分析、主成分分析、因子分析、关联分析等,这是生命周期最重要的阶段。

4)结果解释:包括可视化、数据分析报告等。

表1.1给出了大数据生命周期各个阶段相关技术产品。

表1.1 大数据生命周期各个阶段相关技术产品

(续)