大数据:规划、实施、运维
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1篇 大数据导论

新国际政治经济格局、新商业环境、新企业组织结构、新技术这四个维度,好比相互嵌套的拼图,相互关联,相互影响。任何维度的范式变化都可能从根本上影响企业的发展,乃至国家的繁荣。

今日的世界经济社会由生产、流通和消费构成,世界的每个角落均与IT密切相关。IT对于企业发展的作用和性质正不断发生变化。这一变化对于企业运作和员工工作方式的影响是深远的。“现金流、电流、物流、比特流”四流的畅通与匹配决定了社会的繁荣与否。IT可帮助企业更好、更快、更低成本地进行商业部署和业务流程。除必要的硬件、软件投入外,三个维度决定了企业IT的特性:业务和商业流程、技术架构、运维保障。

第二次世界大战之后,国际政治经济格局已经发生了深刻变化。国家之间的关系直接影响着贸易往来,一个国家国力的盛衰也直接影响着这个国家的影响力、技术能力及产品输出能力。我国的经济发展就直接受益于我国国力的强盛、国际影响力的提高。无论国际大环境如何瞬息万变,开放、多极化的趋势是确定的。在这个趋势下,就要把握先机,优先发展能深刻影响国计民生的先进信息技术,使其贡献于军事和社会生产各个方面,让高端装备业和高新信息技术产业“走出去”,让“中国创造”进一步提升我国的经济实力和国际影响力。

国际商业环境也发生了深刻变化,行业的生态趋于复杂,竞争趋于激烈,企业的诞生和湮灭速度越来越快。综观1990年的日本、1997年的亚洲、2008年的美国、2009年的欧洲,危机和变革使很多被奉为管理典范的著名企业一蹶不振,甚至已经不复存在。故步自封甚至抱残守缺的企业难逃被淘汰的命运,只有坚持在技术、体制等方面持续创新才能使企业立于不败之地。我国的传统行业近年也经受着互联网浪潮的猛烈冲击,最初一些企业认为互联网的影响力只局限于信息行业,怀着“不屑”的态度,从而错过了“借力”或者“转型”的机会。今天的传统企业普遍认识到,互联网已经渗透到人们生活的方方面面,甚至已经悄然改变了传统行业的生产和销售环节。大数据就是这波互联网创新的主导力量之一。大数据的概念带来了全新整合的对数据处理的实现方式,可打造新型的企业治理体系及产品架构。

企业的组织结构也在变化。组织结构变化的动因是更高效地获取、处理来自企业内外部的信息,并迅速做出反应。新的组织结构需要足够的信息,来快速应对市场、竞争对手、商业环境的变化。结构决定功能,因此,企业的结构应当变得扁平化,管理不再只靠自上而下的控制,而更多地依赖成员的向心力和责任感。企业正变得开放,生态系统一环扣一环,产业上下游之间需要协作,竞争对手在一定程度上也成为了合作伙伴。

有用信息的重要性正变得越来越高,新技术这一维度的进步和上述三个维度(国际政治经济格局、新商业环境、新企业组织结构)的范式变化是相互交错、相互影响的。全面高效的信息系统会促进和支撑企业的转型升级,使企业的运作更快、更好、更经济,从而更好地释放生产力。新一代的IT必须是开放的、互连的、模块化的,能打破信息“孤岛”,能更有效地融合各方面的信息,从而为企业选择合作伙伴、管理供应链、锁定目标市场提供定量的决策依据。

“上帝创造了数字,人做剩下的事情”(God creates the numbers, men do the rest),一位数学家曾这么说。从有人类文明以来就有了数字,进而有了数据,甚至可以说就有了大数据。为什么今天把大数据提到如此的高度呢?这和数据的产生量以及相应的处理能力(软的、硬的)是分不开的。半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有和人类的智力与发展相关的领域中。历史上,数据库、数据仓库、数据集市等信息管理领域的技术的产生及更新,在很大程度上也是为了解决大规模数据的问题。

互联网(社交、搜索、电商),移动互联网(微博),物联网(传感器,智慧地球),车联网,GPS,医学影像,安全监控,金融(银行、股市、保险),电信(通话、短信)等,每时每刻都在疯狂地产生数据,拥有数以亿计用户的互联网服务时时刻刻在产生巨量的交互。据统计,全球每秒会有290万封电子邮件被发送;每天会有2.88万小时的视频被上传到Youtube; Twitter上每天会发布5千万条消息;亚马逊上每天产生630万笔订单;网友在Facebook上每个月要花费掉7千亿分钟;Google上每天需要处理24 PB的数据……并且,上述的记录正在不断被刷新。根据IDC做出的估测,数据量一直都在以每年50%的速度增长,也就是说,每两年就增长一倍(大数据摩尔定律),并且大量新数据源的出现导致了非结构化数据、半结构化数据呈现爆发式的增长。预计到2020年,全球将总共拥有35亿GB的数据量,相较于2010年,数据量将增长近30倍。这不是简单的数据增多的问题,而是一个全新的挑战。我们要处理的数据量实在太大、增长又太快,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付,必须运用新的大数据手段。

就大数据范畴内研究的问题的基本特征来讲,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T),且非结构化数据比结构化数据增长快10~50倍。大数据的类型可以包括网络日志、音频、视频、图片、地理位置信息等,具有异构性和多样性的特点,没有明显的模式,也没有连贯的语法和语义,多类型的数据对数据的处理能力提出了更高的要求。大数据价值密度相对较低,例如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息,因此需要对未来趋势与模式做可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。大数据所需的处理速度快,时效性要求高,需要实时分析而非批量式分析,因此,数据的连贯性分析处理,也是大数据区别于传统数据挖掘的一个特征。

面对大数据的这些新特征,既有的技术架构和路线,面临着高效地处理如此海量数据的挑战。而对于相关组织来说,如果其斥巨资采集到的超大量数据无法通过及时处理来反馈有效信息,则成了有数据没知识,那将是得不偿失的。可以说,大数据对人类的数据驾驭能力提出了新的挑战,也为人们获得更深刻、全面的洞察能力提供了前所未有的空间与潜力。

对大数据的认识本身就是人类求知的过程,从数字,到数据,到信息,到知识,再到知识的运用,然后进入下一次循环。我们提一个问题:人类一天到晚究竟是在做什么?答案是做预测!大数据就是用来帮助人们从“已知”走向未知的。这里给已知加了引号,是因为我们所认为的已知未必就是真的已知。预测究竟能有多准?Most likely是最保险的答案。预测不准是常态,预测准是概率事件。然而,预测虽然时有失败,却从未被人们放弃,它是人性中根深蒂固的东西。我们对于自己所处世界的事件进程预见得越多,数据集的质量越高,就越有能力为应对这些事件做好准备,从而改善生活品质。

改革开放以来,中国经济从体制机制到执行层面进行了卓有成效的改革,取得了举世瞩目的成绩。这一时期,我国的经济体量发生了巨大的增长,但是,在单纯以量的增长为导向的情况下,容易催生粗放并短视的发展模式,在战术层面上是“摸着石头过河”,缺乏对模式及时、理性的调整。为了追求更深层次的经济发展,积极应对国际大环境的变化,具有原创性的技术革新、商业环境营造、模式创新等都会成为中国经济持续发展不可或缺的新动力。

今天全球新一轮的科技革命和产业分工调整对我国的工业发展既是挑战,也是实现赶超的机遇。推动信息化和工业化深度融合,以信息化带动工业化,以工业化促进信息化,对于破解当前发展瓶颈,实现工业及商业的转型升级,具有十分重要的意义。

大数据带来的机遇,给了国内企业以通过信息化转型来实现逆袭的可能。本篇将引导读者对大数据的背景、基本定义、建设意义、产业链现状等形成一个初步的认识,展现大数据行业的大致面貌,由此开启大数据之旅。