大数据技术导论
上QQ阅读APP看书,第一时间看更新

3.1.2 数据分类

数据分类是帮助人们理解数据的另一个重要途径。图3.2给出从三个维度分析数据特征的方法。

1)从数据的结构化程度看,可分为结构化数据、半结构化数据和非结构化数据,三者之间的区别见表3.1。

图3.2 数据的维度

表3.1 结构化数据、半结构化数据和非结构化数据对比

在小数据时代,结构化数据处理占主要地位,随着大数据技术的成熟,处理非结构化数据是重点。

2)从数据的加工程度看,可分为裸数据、专家数据、信息和价值,它们之间的关系如图3.3所示。

图3.3 裸数据、专家数据、信息和价值之间的关系

这里强调一下,裸数据、专家数据、信息和价值是相对的,取决于分析目标和个人对数据的理解。专家数据的质量对数据分析的结果影响甚远,获取专家数据是整个数据分析过程中最困难、最耗时、最具挑战的环节。

从价值角度,把数据分为线上数据(热数据、流动数据)和线下数据(冷数据、静态数据),线上数据比线下数据更有价值。