大数据技术原理与应用:概念、存储、处理、分析与应用(第3版)
上QQ阅读APP看书,第一时间看更新

1.1 大数据时代

第三次信息化浪潮涌动,大数据时代全面到来。人类社会信息科技的发展为大数据时代的到来提供了技术支撑,而数据产生方式的变革是促进大数据时代到来的至关重要的因素。

1.1.1 第三次信息化浪潮

根据IBM前首席执行官郭士纳的观点,IT领域每隔15年就会迎来一次重大变革(见表1-1)。1980年前后,个人计算机(PC)开始普及,使得计算机逐渐走入企业和千家万户,大大提高了社会生产力,也使人类迎来了第一次信息化浪潮,Intel、AMD、IBM、苹果、微软、联想等企业是这个时期的标志。随后,在1995年前后,人类开始全面进入互联网时代,互联网的普及把世界变成“地球村”,每个人都可以自由遨游于信息的海洋,由此,人类迎来了第二次信息化浪潮。这个时期也缔造了雅虎、谷歌、阿里巴巴、百度等互联网巨头。时隔15年,在2010年前后,大数据、云计算、物联网的快速发展,拉开了第三次信息化浪潮的大幕,大数据时代的到来,也必将涌现出一批新的市场标杆企业。

表1-1 三次信息化浪潮

1.1.2 信息科技为大数据时代提供技术支撑

信息科技需要解决信息存储、信息处理和信息传输3个核心问题,人类社会在信息科技领域的不断进步,为大数据时代的到来提供了技术支撑。

1.存储设备容量不断增加

数据被存储在磁盘、磁带、光盘、闪存等各种类型的存储介质中。随着科学技术的不断进步,存储设备的制造工艺不断升级,容量大幅增加,读写速度不断提升,价格却在不断下降(见图1-1)。

图1-1 存储设备的价格随时间变化的情况

早期的存储设备容量小、价格高、体积大,例如,IBM在1956年生产的一个早期的商业硬盘,容量只有5MB,不仅价格昂贵,而且体积有一个冰箱那么大(见图1-2)。而今天容量为1TB的硬盘,大小只有3.5英寸(典型外观尺寸为147mm(长)×102mm (宽)×26mm(高)),读写速度达到200MB/s,价格仅为400元左右。现在,高性能的硬盘存储设备,不仅提供了海量的存储空间,还大大降低了数据存储成本。

图1-2 IBM在1956年生产的一个早期的商业硬盘

与此同时,以闪存为代表的新型存储介质也开始得到大规模的普及和应用。闪存是一种新兴的半导体存储器,从1989年诞生第一款闪存产品开始,闪存技术不断获得新的突破,并逐渐在计算机存储产品市场中确立了自己的重要地位。闪存是一种非易失性存储器,即使发生断电也不会丢失数据,可以作为永久性存储设备。闪存还具有体积小、质量轻、能耗低、抗振性好等优良特性。

闪存芯片可以被封装制作成SD卡、U盘和固态盘等各种存储产品,SD卡和U盘主要用于个人数据存储,固态盘则越来越多地应用于企业级数据存储。通常一个32GB的SD卡,体积只有24mm×32mm×2.1mm,质量只有0.5g。以前7200r/min的硬盘,每秒读写次数(Input/Output Operations Per Second,IOPS)只有100,传输速率只有50 MB/s,而现在基于闪存的固态盘,每秒读写次数有几万甚至更多的IOPS,访问延迟只有几十微秒,允许我们以更快的速度读写数据。

总体而言,数据量和存储设备容量二者之间是相辅相成、互相促进的。一方面,随着数据的不断产生,需要存储的数据量不断增长,人们对存储设备的容量提出了更高的要求,促使存储设备生产商制造更大容量的产品满足市场需求;另一方面,更大容量的存储设备进一步加快了数据量增长的速度。在存储设备价格高企的年代,由于考虑到成本问题,一些不必要或当前不能明显体现价值的数据往往会被丢弃。但是,随着单位存储空间价格的不断降低,人们开始倾向于把更多的数据保存起来,以期在未来某个时刻可以用更先进的数据分析工具从中挖掘价值。

2.CPU处理能力大幅提升

CPU处理能力的不断提升也是促使数据量不断增长的重要因素。性能不断提升的CPU,大大提高了处理数据的能力,使得我们可以更快地处理不断累积的海量数据。从20世纪80年代至今, CPU的制造工艺不断提升,晶体管数量不断增加(见图1-3),运行频率不断提高,核心(Core)数量逐渐增多,而同等价格所能获得的CPU处理能力也呈几何级数上升。在过去的30多年里, CPU的处理速度已经从10 MHz提高到3.6 GHz。在2013年之前的很长一段时间里,CPU处理速度的提高一直遵循“摩尔定律”,性能大约每隔18个月提高一倍,价格下降一半。

图1-3 CPU晶体管数目随时间变化的情况

3.网络带宽不断增加

1977年,世界上第一条光纤通信系统在美国芝加哥市投入商用,数据传输速率为45Mbit/s,从此,人类社会的信息传输速度不断被刷新。进入21世纪,世界各国更是纷纷加大宽带网络建设力度,不断扩大网络覆盖范围和传输速度(见图1-4)。以我国为例,截至2019年12月底,我国互联网宽带接入端口数量达9.16亿个,其中,光纤接入端口占互联网接入端口的比重达91.3%,光缆线路总长度已达4750万公里,相当于在京沪高铁线上往返1.8万余次。目前移动通信4G基站已接近520万个,我国4G网络的规模全球第一,并且4G的覆盖广度和深度也在快速扩展。与此同时,我国正全面加速5G网络建设,截至2020年2月底,全国建设开通5G基站达16.4万个, 5G网络建设基础不断夯实。由此可以看出,在大数据时代,信息传输不再遭遇网络发展初期的瓶颈和制约。

图1-4 网络带宽随时间变化的情况

1.1.3 数据产生方式的变革促成大数据时代的来临

通常,数据是我们通过观察、实验或计算得出的结果。数据和信息是两个不同的概念。信息是较为宏观的,它由数据的有序排列组合而成,传达给读者某个概念、方法等;数据则是构成信息的基本单位,离散的数据几乎没有任何实用价值。

数据有很多种,比如数字、文字、图像、声音等。随着人类社会信息化进程的加快,我们在日常生产和生活中每天都会产生大量的数据,比如商业网站、政务系统、零售系统、办公系统、自动化生产系统等,每时每刻都在产生数据。数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。从创新到所有决策,数据推动着企业的发展,并使得各级组织的运营更为高效,可以这样说,数据将成为每个企业获取核心竞争力的关键因素。数据资源已经和物质资源、人力资源一样成为国家的重要战略资源,影响着国家和社会的安全、稳定与发展,因此,数据也被称为“未来的石油”。

数据产生方式的变革,是促成大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了3个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段(见图1-5)。

1.运营式系统阶段

人类社会最早大规模管理和使用数据,是从数据库的诞生开始的。大型零售超市销售系统、银行交易系统、股市交易系统、医院医疗系统、企业客户管理系统等大量运营式系统,都是建立在数据库基础之上的,数据库中保存了大量结构化的企业关键信息,用来满足企业各种业务需求。在这个阶段,数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库。比如,对于股市交易系统而言,只有当发生一笔股票交易时,才会有相关记录生成。

图1-5 数据产生方式的变革

2.用户原创内容阶段

互联网的出现,使得数据传播更加快捷,数据传播不需要借助于磁盘、磁带等物理存储介质。网页的出现进一步加速了大量网络内容的产生,从而使得人类社会数据量开始呈现“井喷式”增长。但是,真正的互联网数据爆发产生于以“用户原创内容”为特征的“Web 2.0时代”。Web 1.0时代,主要以门户网站为代表,强调内容的组织与提供,大量上网用户本身并不参与内容的产生。而Web 2.0技术以Wiki、微博、微信、抖音等应用所采用的自服务模式为主,强调自服务,大量上网用户本身就是内容的生成者,尤其是随着移动互联网和智能手机终端的普及,人们更是可以随时随地使用手机发微博、传照片等,数据量开始急剧增长。

3.感知式系统阶段

物联网的发展最终导致了人类社会数据量的第三次跃升。物联网中包含大量传感器,如温度传感器、湿度传感器、压力传感器、位移传感器、光电传感器等,此外,视频监控摄像头也是物联网的重要组成部分。物联网中的这些设备,每时每刻都在自动产生大量数据,与Web 2.0时代的人工数据产生方式相比,物联网中的自动数据产生方式,将在短时间内生成更密集、更大量的数据,使得人类社会迅速步入“大数据时代”。

1.1.4 大数据的发展历程

大数据的发展历程总体上可以划分为3个重要阶段:萌芽期、成熟期和大规模应用期(见表1-2)。

表1-2 大数据发展的3个重要阶段

这里简要回顾一下大数据的发展历程。

▪ 1980年,著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

▪ 1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师学会(IEEE)关于可视化的会议论文集中,发表了《为外存模型可视化而应用控制程序请求页面调度》的文章,这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。

▪ 1999年10月,在美国电气和电子工程师学会(IEEE)关于可视化的年会上,设置了名为“自动化或交互:什么更适合大数据?”的专题讨论小组,探讨大数据问题。

▪ 2001年2月,梅塔集团分析师道格·莱尼发布题为《3D数据管理:控制数据容量、处理速度及数据种类》的研究报告。10年后,“3V”(Volume、Variety和Velocity)作为定义大数据的3个维度而被广泛接受。

▪ 2005年9月,蒂姆·奥莱利发表了《什么是Web 2.0》一文,并在文中指出“数据将是下一项技术核心”。

▪ 2008年,《自然》杂志推出大数据专刊;计算社区联盟(Computing Community Consortium)发表了报告《大数据计算:在商业、科学和社会领域的革命性突破》,阐述了大数据技术及其面临的一些挑战。

▪ 2010年2月,肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》。

▪ 2011年2月,《科学》杂志推出专刊《处理数据》,讨论了科学研究中的大数据问题。

▪ 2011年,维克托·迈尔·舍恩伯格出版著作《大数据时代:生活、工作与思维的大变革》,引起轰动。

▪ 2011年5月,麦肯锡全球研究院发布《大数据:下一个具有创新力、竞争力与生产力的前沿领域》,提出“大数据”时代到来。

▪ 2012年3月,美国奥巴马政府发布了《大数据研究和发展倡议》,正式启动“大数据发展计划”,大数据上升为美国国家发展战略,被视为美国政府继信息高速公路计划之后在信息科学领域的又一重大举措。

▪ 2013年12月,中国计算机学会发布《中国大数据技术与产业发展白皮书》,系统总结了大数据的核心科学与技术问题,推动了我国大数据学科的建设与发展,并为政府部门提供了战略性的意见与建议。

▪ 2014年5月,美国政府发布2014年全球“大数据”白皮书《大数据:抓住机遇、守护价值》,报告鼓励使用数据来推动社会进步。

▪ 2015年8月,国务院印发《促进大数据发展行动纲要》,全面推进我国大数据发展和应用,加快建设数据强国。

▪ 2017年1月,为加快实施国家大数据战略,推动大数据产业健康快速发展,工业和信息化部印发了《大数据产业发展规划(2016—2020年)》。

▪ 2017年4月,《大数据安全标准化白皮书(2017)》正式发布,从法规、政策、标准和应用等角度,勾画了我国大数据安全的整体轮廓。

▪ 2018年4月,首届“数字中国”建设峰会在福建省福州市举行。