
2.9 大数据
1.什么是大数据
大数据,又称海量数据,指的是以不同形式存在于数据库、网络等媒介上蕴含丰富信息的规模巨大的数据。大数据同过去海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity)。
Volume:数据体量巨大,可以是TB级别的,也可以是PB级别的。
Variety:数据类型繁多,如网络日志、视频、图片、地理位置信息等。
Value:价值密度低。以视频为例,连续不间断的监控视频中,可能有用的数据仅仅有一两秒。
Velocity:处理速度快,这一点与传统的数据挖掘技术有着本质的不同。简而言之,大数据的特点是体量大、多样性、价值密度低、速度快。
2.大数据技术
时下,大数据这个概念很火,围绕这个概念,有两大技术分支,一个分支是关于大数据存储的,涉及关系数据库、云存储和分布式存储;另一个分支是关于大数据应用的,涉及数据管理、统计分析、数据挖掘、并行计算、分布式计算等。
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、SQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。这里首先给出一个通用化的大数据处理框架,主要分为数据采集与预处理、数据存储、数据清洗和数据可视化这几个方面。
(1)数据采集与预处理:数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,将这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。
(2)数据存储:在数据存储过程中,涉及的数据表都是成千上万列的,包含各种复杂的序列。
(3)数据清洗:随着数据量的激增,需要进行训练和清洗的数据会变得越来越复杂,这个时候就需要任务调度系统针对关键任务进行数据的有效筛选。
(4)数据可视化:将分析得到的数据进行可视化,用于指导决策服务。
3.大数据的行业应用
大数据无处不在,它适用于所有行业,包括金融、汽车、餐饮、电信、能源、健身和娱乐等领域。
· 在制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、工艺流程分析、生产流程改进、生产过程能耗优化、工业供应链分析与优化、生产计划与调度。
· 在金融行业,大数据在高频交易、社会情绪分析、信用风险分析三大金融创新领域发挥着重要作用。
· 在汽车行业,利用大数据和物联网技术的无人驾驶汽车将在不久的将来进入我们的日常生活。
· 在互联网行业,借助大数据技术可以分析客户行为,推荐产品,投放有针对性的广告。
· 在电信行业,利用大数据技术进行客户断开分析,及时掌握客户断开趋势,介绍客户保留措施。
· 在能源行业,随着智能电网的发展,电力公司可以掌握大量的用户用电信息并使用大数据技术分析用户电力消费模式,以提高电网的运行效率,合理设计电力需求响应系统,确保电网的安全运行。
· 在物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。
· 在城市管理方面,大数据可以用来实现智能交通、环境监测、城市规划和智能安全。
· 在生物医学领域,大数据可以帮助我们实现流行病预测、智能医疗和健康管理,也可以帮助我们解读DNA,更多地了解生命的奥秘。
· 在体育和娱乐领域,大数据可以帮助我们训练我们的团队,决定我们想拍什么样的金融电影和电视节目,并预测游戏的结果。
· 在安全领域,政府可以利用大数据技术建立强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以利用大数据预防犯罪。
· 在个人生活方面,通过与每个人相关的“个人数据”,可以分析出个人生活的行为习惯,从而为他们提供更加周到的个性化服务。
大数据的价值远不止这些。大数据渗透到各行各业,极大地推动了社会生产和生活,未来必将产生重大而深远的影响。