“互联网+”的经济学
上QQ阅读APP看书,第一时间看更新

第1章 “互联网+”的技术创新

1.1 大数据

大数据(big data)指的是所涉及的数据量规模大到无法通过人工在合理时间内获取、记录、管理、筛选、分享,并整理成为人类所能解读的信息,而需要运用新处理模式才能达到更强的决策力、洞察力和流程优化能力,同时具有海量、高增长率和多样化特征的信息资产。百度百科、维基百科“大数据”词条整合。

除了获取庞大的数据信息之外,大数据技术运用更为重要的意义是对这些特定内涵的数据进行专业化的处理,从而实现数据的“增值”。

1.1.1 大数据的4V模型

业内对于大数据的特征多有独到见解和表述,其中比较有代表性,并且已经得到广泛认可的是2001年由Doug Laney提出的“3V”模型,包括数量(volume)、速度(velocity)和种类(variety)。麦塔集团(META Group)分析师Doug Laney在其报告中针对大数据提出“3-D数据管理”的观点,认为数据成长将朝着数据体量规模(volume)、数据处理速度(velocity)、数据格式多样化(variety)三个方向发展,三者统称为3V。在此基础上,随着大数据技术的发展和应用,更多新的特征被提出。例如,互联网数据中心(Internet Data Center, IDC)认为大数据应当具有价值性(value),而科技大厂IBM则认为大数据还应当具有真实性(veracity)。如今,大数据的特征已经被扩展到了“11V”。本书只对较为常用的“4V”(volume, velocity, variety, value)模型进行分析。

Volume指的是数据庞大规模和完备的记载能力。在大数据时代,数据加工处理能力和网络宽带飞速提升,社交网络运用日益成熟,数据的产生量和存储量也随之巨幅攀升,存储单位轻而易举地达到TB、PB级别,甚至向EB、ZB级别扩展。1TB=1024GB=1048576MB,1PB=1024TB,1EB=1024PB,1ZB=1024EB.百度网站的每日检索数据表明,其新首页导航每天提供的数据超过1.5PB,如果把这些数据全部打印出来,需要超过5000亿张A4纸;而有资料证实,全人类从古至今生产的所有印刷材料的数据量总和只有200PB,所有说过的话的数据量也不过5EB。也就是说,用语言表述的整个人类历史都可以被大数据完全记录下来。更重要的是,这些数据具有完整的规模性,可以被系统地利用和开发。

Velocity指的是大数据的流动性,体现在对数据的实时获取上。随着移动互联网的发展,我们的生活越来越依赖于天气、交通、物流等各方面的即时信息。这就要求数据处理有高度的时间敏感性,能够在第一时间抓住重要事件的发生信息,快速做出分析并以条理化的方式呈现,以为决策服务。在极短的时间内获取高价值的信息是大数据技术区别于传统数据技术的根本,被称为“一秒定律”。根据IDC发布的“数字宇宙”报告全称《大数据,更大的数字身影,最大增长在远东》,由EMC公司赞助IDC发布,预测了从2013—2020年间的大数据发展状况。,全球数据使用量不断膨胀,预计到2020年将达到40ZB,但其中仅有0.4%的数据得到了合理的分析利用。面对如此情形,我们可以说,对数据的分析和处理效率将成为未来科技和企业发展的生命。

Variety指的是多种途径来源的结构性和非结构性数据。Web 2.0时代是以互动为特征的,人们既是网络信息的获取者,同时也是网络信息的制造者和传播者。这使得数据量发生了爆炸式的增长,其来源和种类也因而变得更为复杂。过去,人们接触较多的是文本一类的结构化数据;如今,包括在线音视频、网络日志、图片和定位信息等在内的非结构化数据越来越多地被使用和记录。在小数据时代,人们总是花费很多时间和精力对数据进行甄别,以确保数据的质量。而在大数据时代,看似在宏观上失去了数据的精准性,却在微观上更强化了这一点。因为利用大数据的多样性,我们可以保留一切有用的信息,发现其内在的关系,从而进行有目的的分析和加工。

Value指的是大数据技术内涵的真实意义,即从数据中找到其应有的价值。2010年10月23日,英国《卫报》发表了一篇触目惊心的“数据新闻”,报社利用维基数据将伊拉克战争的伤亡情况标注在地图上。地图上的标注点多达39万个,每一个标注点都表示一个伤亡事件,鼠标滑过标注点时,该事件涉及的人数、时间、具体原因等详细情况会以窗口形式弹出。报道一经刊出立即引起举国震动,迫使英国政府最终撤军伊拉克。互联网女王Mary Meeker在2012年的互联网发展趋势报告中用两张图片生动地描述了大数据的特征:一张是整齐堆放的稻草;另一张是稻草堆中一根缝衣针的特写。这两张图非常生动地说明,大数据技术可以帮助我们在庞杂繁复的信息中找到真正有价值的东西,哪怕它像在稻草中的一枚小小的缝衣针那样难以发觉。然而,究竟在庞大的数据池中能否找到有价值的信息,找到多少信息,找到什么样的信息都是不确定的。在大数据时代,价值密度的高低与数据体量的大小总是反向变化,就拿我们通常看的视频来说,一小时左右的视频片段里,包含有用的信息的可能只有那么一两秒。

1.1.2 关注相关性

大数据的使用往往更关注几件事情同时出现的相关性而不仅是因果关系。特别是在使用大数据进行产品营销时,大数据首先关注的是哪几类产品同时被顾客消费了,从而反向倒推原因,更具有实战性。沃尔玛将纸尿裤和啤酒进行联合促销就是大数据营销中的一个经典案例。沃尔玛公司在分析卖场销售数据时惊讶地发现,男性顾客购买婴儿纸尿裤和啤酒的数量呈现正向相关性。沃尔玛认为可能的原因是,在家庭中,婴儿通常由母亲照顾,父亲则被委以外出购买物品的任务,男性在购买婴儿纸尿裤时,会随手搭配几瓶啤酒犒劳自己。由此,商场尝试推出了纸尿裤和啤酒的联合促销手段,将原本相隔甚远的母婴用品和酒类饮料两个区域安排在一起,减少顾客的行走时间,并对当地新婚新育家庭的消费能力进行了调查,根据结果调整了两类商品的售价。果不其然,经过调整,纸尿裤和啤酒的销量都大幅增加。另外一个例子是,明尼苏达州一位中年男子怒指Target百货公司将婴儿产品的优惠券寄给他尚在读高中的16岁女儿。然而没过多久,该顾客便致电道歉,因为女儿已经向他坦白自己真的怀孕了。事情是这样的:Target百货收集用户所有的购物数据(线上和线下),然后通过相关性分析得出一些关系和规律,从而进行针对性的产品推销。16岁的女孩由于之前浏览过相关的产品,因而收到了营销优惠券。

上述两个案例中的纸尿裤和啤酒,以及高中生和婴儿用品本身看起来并没有因果关系,其结果却呈现出了一定的相关性,这就是我们应该关注的问题,即数据之间的潜在关联性往往超出我们的认识。在大数据时代,我们关注更多的是“是什么”,而不是“为什么”,我们根据“是什么”来建立新的联系并分析,而不是基于已有的经验判断。

1.1.3 大数据预测

预测是使用大数据的基本出发点。通过大数据发现的历史规律往往具有预测性,它能指导我们做出科学的判断。谷歌公司从创立之初就一直留存着人们的搜索历史信息。这些数据能够帮助谷歌进行很多有意义的研究。例如,谷歌的工程师利用人们搜索用到的诸如“感冒”“喉咙痛”等词语来判断甲型H1N1流感等疾病的传播途径,因为通常得感冒的人更会检索相关信息。这个做法获得了非常好的效果,比官方医卫组织提早了两个星期了解到甲型H1N1流感的传播路径。乔布斯花费几十万美元对自身进行了完整的基因采集,他得到的不是一个基因样本,而是包含全套DNA信息的数据文档,并且还特地对肿瘤DNA进行了排序。医生根据所得到的基因数据按需治疗,最终成功帮助乔布斯延长了好几年生命,成就了苹果帝国,也改变了你我的生活。

上述两个案例所体现的正是大数据的预测性,它们共同的逻辑基础在于,每一种看似不可预料的变化在发生前一定会有所征兆,也就是说,每一件事情的发生都是有迹可循的。通过对大数据进行分析和加工,我们可以更加容易地找到征兆与变化之间的关系和规律,从而进行一定程度的预测,并提早设计好应对预案。