大数据技术导论
上QQ阅读APP看书,第一时间看更新

1.1.2 大数据概念和特征

大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

大数据具有4V特征,如图1.3所示。

图1.3 大数据4V特征

几点说明如下:

1)容量度量最小单位是bit,1B=8bit,1KB=1024B,按从小到大顺序给出常用度量单位:bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。从KB开始它们按照进率1024来计算。

为了让读者理解数据量有多大,图1.4给出了一个示例,2014年美国国会图书馆藏书的数据量约235TB,而百度每天的数据处理量约为其5000倍。

2)数据的种类如图1.5所示。

3)速度快包括两个方面:产生速度快、处理速度快。图1.6给出了数据产生的增长速度示意图。

图1.4 数据量示例

图1.5 数据种类

4)价值是相对的、稀疏、有时效性,隐藏较深,人们看到的只是冰山一角(见图1.7)。

图1.6 数据产生的增长速度

图1.7 大数据价值