大数据技术导论
上QQ阅读APP看书,第一时间看更新

第3章 大数据采集与预处理

大数据采集与预处理主要指网络爬虫和ETL技术。ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。在ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况下,这部分工作量是整个ETL的2/3。ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后得到专家数据。