机器学习与大数据技术
上QQ阅读APP看书,第一时间看更新

1.2 大数据

大数据迅速发展成为当今科技界和企业界甚至世界各国政府关注的热点。《自然》(Nature)和《科学》(Science)等国际顶尖学术期刊相继出版专刊探讨大数据带来的机遇和挑战。美国把大数据视为“未来的新石油”,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为国家间和企业间新的争夺焦点。“大数据时代”已然来临。

迄今为止并没有公认的关于“大数据”的定义。一般认为大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。从宏观世界角度看,大数据是融合物理世界、信息空间和人类社会三元世界的纽带。从信息产业角度看,作为新一代信息技术重要组成部分的大数据已成为经济增长的新引擎。从社会经济角度看,大数据已成为第二经济的核心和支撑。第二经济是指处理器、传感器和执行器等,以及运行在其上的经济活动。

相较于传统数据,人们将大数据的特征总结成“4V”,即数据量大(Volume)、多样性(Variety)、价值密度低(Value)和高速度(Velocity)。大数据的主要难点并不在于数据量大,因为通过对计算机系统的扩展可以在一定程度上缓解数据量大带来的挑战。大数据真正难点来自数据多样性和高速度。数据类型多样使得系统不仅要处理结构化数据,还要处理文本和视频等非结构化数据。在金融分析、航空航天等行业,数据处理速度要求非常高,时间就是效益。传统的数据处理算法无法满足快速响应的需求,因此迫切需要新型算法的支持。为了应对大数据面临的挑战,以Google为代表的互联网企业近几年推出了各种不同类型的大数据处理系统,推进了深度学习、知识计算和可视化等技术在大数据背景下的发展。