
2.1 大数据发展现状
2.1.1 大数据理论发展现状
1.大数据的含义及特点
随着互联网信息化时代的发展深化,电子数据存储量呈现爆炸式的增长,DC数据显示在2011年全球每秒钟发送290万封电子邮件,每天会有2.88万个小时的视频上传到Youtub e网站,亚马逊每天产生630万笔订单,Google每天需要处理24PB的数据,而全年的数字已经达到1800EB,2015年达到8000EB,并且还将呈数量级增长,正是这种天文级别的数据的出现,以及如何在如此海量且结构复杂的数据中发现数据价值,宣告着大数据时代的到来[1]。
大数据理论是维克托·迈尔-舍恩伯格和肯尼斯·库克耶在《大数据时代》中提出。他们指出大数据是指不用随机分析法这样的捷径,而是对所有数据进行分析处理。
到底多大的数据才叫大数据呢?在科技领域,常以4个“V”来对大数据加以定义。
(1)第一个V指的是Votume,即数据容量,其单位应以PB作为起始计量单位,1PB=1024TB。现在每两天产生的数据信息量,相当于2003年一年所产生的数据量。
(2)第二个V指的是Variety,即数据种类。数据种类具有多样化的特点。如今已经不是结构化数据主导的时代,我们所熟知的新浪微博,2013上半年注册用户就达到5.36亿户,活跃用户每天分享的内容、发布照片、评论、点赞及转发等用户行为数据,80%以上都是非结构化数据以及半结构化数据。
(3)第三个V指的是Value,即数据价值。在大量的数据中,有价值的数据实际是很少的,我们所了解的数据源,其中80%~90%的数据都是没有价值的数据,只有少数10%~20%的数据是可用数据。且一些有价值的信息湮没在海量数据之中,因此数据价值的密度较低,然而数据的质量往往是大数据的根本所在。
(4)第四个V指的Velocity,即数据处理速度。大量的数据必须要有快速分析处理的手段,也就是所说的1秒定律。实时分析越来越关键,至少处理的速度要超过数据生成的速度,否则就毫无用处[2]。
2.大数据的发展阶段
如表2.1所示,自20世纪90年代至今,大数据的发展经历了3个阶段。20世纪90年代至21世纪初为萌芽期,以数据挖掘理论和数据库技术的发展为标志;2000—2010年期间,随着并行计算和分布式核心技术的发展,大数据进入了成熟期;2010年至今,大数据渗透进各个领域,为大规模应用期[3]。
表2.1 大数据发展的三个阶段

3.大数据的理论研究现状
1989年在美国底特律召开的第11届国际人工智能联合会议专题讨论会上,首次提出了“数据库中的知识发现(Knowledge Discovery in Database,KDD)”的概念。大数据的兴起,主要是国际顶尖期刊Nature早在2008年推出了Big data专刊[4]。计算社区联盟(comp uting community consortium)在2008年发表报告,阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战[5]。Science在2011年2月推出专刊dealing with data,主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性[6]。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书challenges and opportunities with big data[7]。该白皮书从学术的角度出发介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。全球知名的咨询公司麦肯锡(McKinsey)2011年6月份发布了一份关于大数据的详尽报告[8],对大数据的影响、关键技术和应用领域等都进行了详尽的分析。2012年以来,人们对大数据的关注度与日俱增。2012年1月份的达沃斯世界经济论坛上,大数据是主题之一,该次会议还特别针对大数据发布了报告,探讨了新的数据产生方式下,如何更好地利用数据来产生良好的社会效益。该报告重点关注了个人产生的移动数据与其他数据的融合与利用[9]。2012年3月美国奥巴马政府发布了“大数据研究和发展倡议”,投资2亿美元以上,正式启动“大数据发展计划”[10],计划在科学研究、环境、生物医学等领域利用大数据技术进行突破。这一计划被视为美国政府继信息高速公路计划之后在信息科学领域的又一重大举措。与此同时,联合国一个名为“global pulse”的倡议项目在2013年5月发布报告bigdata for development:challenges or opportunities[11],该报告主要阐述大数据时代各国特别是发展中国家在面临数据洪流的情况下所遇到的机遇与挑战,同时还对大数据的应用进行了初步解读。《纽约时报》的文章the age of big data则通过主流媒体的宣传使普通民众开始意识到大数据的存在,以及大数据对于人们日常生活的影响[12]。
在产业界,经济利益成为主要的推动力。IBM、Oracle、微软、Google、亚马逊、Facebook、Teradata、EMC、惠普等跨国巨头也因大数据技术的发展而更加具有竞争力[13]。仅2009年,Google通过大数据业务对美国经济贡献540亿美元;2005年以来,IBM公司投资160亿美元进行30多次与大数据相关的收购,使业绩稳定高速增长,2012年,IBM公司股价每股突破200美元大关;eBay公司通过数据挖掘精确计算出广告中每个关键字带来的回报,2007年以来,广告费降低了99%,同时顶级卖家占总销售额的百分比上升至32%;2011年,Facebook公司首次公开新数据处理分析平台PUMA,通过对数据多处理环节区分优化,相比之前单纯采用Hadoop和Hive进行处理的技术,数据分析周期从2天降到10秒以内,效率提高数万倍。
与国外相比,我国大数据的发展还稍落后。我国国家自然科学基金于1993年首次支持对数据挖掘领域的研究项目。1999年,在北京召开第三届亚太地区知识发现与数据挖掘国际会议(PAKDD),收到论文158篇。2011年,第十五届PAKDD在深圳举办,会议就数据挖掘、知识发现、人工智能及机器学习等相关领域的主题进行交流讨论。2012年5月,香山科学会议组织了以“大数据科学与工程——一门新兴的交叉学科?”为主题的第424次学术讨论会,来自国内外35个单位横跨IT、经济、管理、社会及生物等多个不同学科领域的43位专家代表参会,并就大数据的理论与工程技术研究、应用方向以及大数据研究的组织方式与资源支持形式等重要问题进行了深入讨论。6月,中国计算机学会青年计算机科技论坛(CCF YOCSEF)举办了“大数据时代,智谋未来”学术报告会,决定成立大数据专家委员会,就大数据时代的数据挖掘、体系架构理论、大数据安全、大数据平台开发与大数据现实案例进行了全面讨论。2012年10月,首个专门研究大数据应用和发展的学术咨询组织:中国通信学会大数据专家委员会成立,推动了我国大数据的科研与发展。2012年11月,“Hadoop与大数据技术大会”以“大数据共享与开放技术”为主题,总结了8个热点问题:数据科学与大数据的学科边界、数据计算的基本模式与范式、大数据的作用力和变换反对、大数据特性与数据态、大数据安全和隐私问题、大数据对IT技术架构的挑战、大数据的生态环境问题以及大数据的应用及产业链。大会还成立了“大数据共享联盟”,旨在搜集大数据,展示大数据,促进大数据的研究与开发[14]。
在产业界,国内主要有百度、腾讯、华为、淘宝、中国移动等企业开展的大数据布局与商业活动。百度作为中国最大的搜索引擎,在中文互联网领域各项排行中居于首位。2012年,百度日均抓取约10亿网页,处理超过100PB的数据。过去10年,百度网页搜索库已从500万猛增到了500亿个页面。从公开的材料看,百度的大数据战略往往与云计算绑定在一起,强调大数据存储与处理能力。2011年8月,百度宣布将用3年的时间建立一个全国最大的数据中心,并且主打“绿色”。通过对大数据流量的把握,百度经过设计,降低设备能耗、减少服务器、日间侧重商业业务、夜间侧重数据业务,从而让“百度的单体十万台服务器的数据中心,电源使用效率(Power Usage Effectiveness,PUE)每降低0.1,一年就可为百度节省上千万元的成本。
腾讯自称目前中国最大的互联网综合服务提供商之一,也是中国服务用户最多的互联网企业之一,拥有超过7.52亿QQ即时通信活跃账户,1亿微信用户、4.25亿微博用户和超过1亿的视频用户。在积累了个人用户多方面的海量数据后,2012年腾讯提出了“大数据营销”的概念。腾讯网总编辑陈菊红表示“将从这些海量数据中挖掘、分辨出用户的行为模式、兴趣偏好等,打造专属于每个人的智慧门户。”腾讯不仅在各大产品线中都设置了数据挖掘团队,还在和一些第三方数据挖掘公司、营销公司展开合作洽谈,充分挖掘用户在网上的行为、关系、用户产生的内容(User Generated Cotent,UGC)等数据,“通过合理的方法找到对企业有帮助的数据,并且将营销预算合理地分配在为数众多的数据来源平台上”,从而提高营销效率。2011年4月腾讯追加在天津的数据中心建设投资,欲建立亚洲最大的数据储备处理中心。
中国移动作为中国最大的移动通信运营商,截至2012年4月底,中国移动用户数已经达到6.7亿户。同时,中国移动正在谋求从移动运营商的管道角色向客户端制造和云端服务两个方向发展。而大数据业务的投入,为此提供了机遇。2011年第四季度中国移动先后与内蒙古自治区和黑龙江省签署合作协议,在呼和浩特、哈尔滨建设全国规模最大、技术最先进、能耗最低的大数据中心并在成都建立西部最大数据中心,完成了其在国内数据中心的三大数据基地布局[15]。
2.1.2 大数据应用发展现状
大数据的应用十分广泛。数据流与人流、物流、资金流、技术流相交融,能够在用户需求、商业利益乃至国家利益等多重驱动下对经济社会各领域形成影响。数据资源来源广泛、渗透力强,其能够发挥的影响具有难以比拟的普遍性、细微性、长期性和多变性,将影响人类社会的各个领域、各个层面。
1.企业内部大数据应用
目前,大数据的主要来源和应用都是来自于企业内部,商业智能(Business Intelligence,BI)和联机分析处理(On-Line Analytical Processing,OLAP)可以说是大数据应用的前辈。企业内部大数据的应用,市场方面利用大数据关联分析,更准确地了解消费者的使用行为,挖掘新的商业模式;销售规划方面,通过大量数据的比较,优化商品价格;运营方面,提高运营效率和运营满意度,准确预测人员配置要求,避免产能过剩,降低人员成本;供应链方面,利用大数据进行库存优化、物流优化和供应商协同等工作,可以缓和供需之间的矛盾,控制预算开支,提升服务。
在金融领域,企业大数据的应用得到了快速发展。例如,招商银行通过数据分析识别出招行信用卡的价值客户经常出现在星巴克或麦当劳等场所后,通过“多倍积分累计、积分店面兑换”等活动吸引优质客户;通过构建客户流失预警模型,对流失率等级前20%的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了15%和7%;通过对客户交易记录进行分析,有效识别出潜在的小微企业客户,并利用远程银行和云转介平台实施交叉销售,取得了良好成效。
当然最典型的应用还是在电子商务领域,每天有数以万计的交易在淘宝上进行,与此同时相应的交易时间、商品价格、购买数量会被记录。更重要的是,这些信息可以与买方和卖方的年龄、性别、地址甚至兴趣爱好等个人特征信息相匹配。淘宝数据魔方是淘宝平台上的大数据应用方案,通过这一服务,商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等,并可以据此进行生产、库存决策,而与此同时,更多的消费者也能以更优惠的价格买到更心仪的宝贝。而阿里信用贷款则是阿里巴巴通过掌握的企业交易数据,借助大数装技术自动分析判定是否给了企业贷款,全程不会出现人工干预。据透露,截至目前阿里巴巴已经放贷300多亿元,坏账率约0.3%左右,大大低于商业银行。
2.物联网大数据应用
物联网不仅是大数据的重要来源,还是大数据应用的主要市场。在物联网中,现实世界中的每个物体都可以是数据的生产者和消费者,物体种类繁多,丰富了大数据在物联网的应用。
物联网中大数据的应用对物流行为尤为重要。UPS快递在货车上装有传感器、无线适配器和UPS。这些设备能及时检测晚点车辆,预测故障,也方便了公司监督管理员工并优化行车线路。UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。2011年,大数据帮助UPS的驾驶员少跑了近4828万公里的路程。
智慧城市,是一个基于物联网大数据应用的热点研究项目,图2.1所示为基于物联网大数据的智能城市规划。佛罗里达州迈阿密藏德县与IBM公司的智慧城市项目合作,将35种关键县政工作和迈阿密市紧密联系起来,帮助政府领导在治理水资源、减少交通拥堵和提升公共安全方面制定决策时获得更好的信息支撑。IBM公司使用云计算环境中的深度分析向藏德县提供智能仪表盘应用,帮助各个部门实现协作化和可视化管理。智慧城市应用为藏德县带来多方面的收益。

图2.1 基于物联网的智能城市
3.面向在线社交网络大数据的应用
在线社交网络大数据主要来自即时消息、在线社交、微博和共享空间4类应用。由于在线社交网络大数据代表了人的各类活动,因此对于此类数据的分析得到了更多关注。在线社交网络大数据分析是从网络结构、群体互动和信息传播3个维度,通过基于数学、信息学、社会学和管理学等多个学科的融合理论和方法,为理解人类社会中存在的各种关系提供的一种可计算的分析方法。目前,在线社交网络大数据的应用包括网络舆情分析、网络情报搜集与分析、社会化营销、政府决策支持及在线教育等。
圣克鲁斯警察局是美国警界最早应用大数据进行预测分析的试点,通过分析社交网络,可以发现犯罪趋势和犯罪模式,甚至可以对重点区域的犯罪概率进行预测。
2013年4月,美国计算搜索引擎Wolfram Alpha,通过对Facebook中100多万美国用户社交数据进行分析,发现大部分Facebook用户在20岁出头时开始恋爱,27岁左右时订婚,30岁左右结婚,而在30~60岁,婚姻关系变化缓慢。这个研究结果与美国人口普查数据相比,几乎完全一致。
总体而言,在线社交网络大数据应用可以从以下3方面帮助我们了解人的行为,以及掌握社会和经济活动的变化规律。
(1)前期警告:通过检测用户使用电子设备及服务中出现的异常,在出现危机时可以更快速地应对。
(2)实时监控:通过对用户当前行为、情感和意愿等方面的监控,可以为政策和方案的制定提供准确的信息。
(3)实时反馈:在实时监控的基础上,可以针对某些社会活动获得群体的反馈信息。
由此可见,大数据在企业内部、物联网、在线社交等层面均得到应用发展。在大数据的时代背景下,各行各业都存在各式各样的数据。如何把大数据恰当灵活地运用到各个层面,即是当今时代的需求也是迫切任务[16]。