1.2 数据分析相关岗位
大数据可以帮助企业从最宝贵的信息资产中挖掘到新的商机,从而创造新的价值并形成优势,同时有助于企业提高生产效率、提升产品质量和提供个性化的产品和服务,从而帮助改进客户满意度并提升企业利润率。据中国信息通信研究院发布的《中国大数据发展调查报告(2018年)》称,2017年中国大数据产业总体规模为4700亿元人民币,同比增长30%;2017年大数据核心产业规模为236亿元人民币,增速达到40.5%,预计2018—2020年仍将保持30%以上的增长。而与大数据相关的如数据工程师、大数据分析师等新职业成为宠儿。
1.2.1 大数据的营销价值
1-8 视频:大数据的营销价值
尽管大数据时代已经到来,大数据概念已经开始应用到各个行业,大数据价值通过各行各业的不断创新呈现了井喷式的发展,但依然有很大部分人并不能够真正理解大数据的含义。
1.大数据的前世今生
思考题 大数据和BI商业智能有何区别?有何相关?
1-9 拓展知识:大数据和BI商业智能有何区别
当前“大数据”成了一个时髦词语,先简单回顾一下大数据的发展历史。可以说大数据最早起源于我国古代的周易八卦,王建编著的《易经:中国古代的大数据》一书指出,《易经》是由象含数导引出理,即通过象、数展现自然规律,从而指导人类社会的建设和发展,是中国文化的集大成者,是整个宇宙的“大数据”。王建说:“不读易你永远也不能真正了解大数据是什么意思。”1980年,未来学家阿尔文·托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。到2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》,此组织可以说是最早提出大数据概念的机构。大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。2011年5月,全球知名咨询公司麦肯锡的麦肯锡全球研究院(MGI)发布了《大数据:创新、竞争和生产力的下一个新领域》报告,这也是专业机构第一次全方面地介绍和展望大数据,大数据开始备受关注。最早提出“大数据时代”到来是在2014年5月,美国白宫发布了2014年全球“大数据”白皮书研究报告《大数据:抓住机遇、守护价值》。2015年9月,我国国务院印发《促进大数据发展行动纲要》,同年11月,我国首次提出推行国家大数据战略。
2.大数据的含义和特征
思考题 大数据与传统数据相比有哪些典型特征呢?
业界相对认可的大数据定义为:需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产,或称巨量资料。大数据技术是海量数据的获取、存储、管理、计算分析、挖掘等关键处理技术及在各个领域的应用,也是一种从各种组织形式和类型的数据中挖掘有价值的信息的能力。如京东APP通过更好的购物和物流体验来吸引流量,从而产生更多的数据来优化自身的购物推荐和物流等算法。
大数据时代,数据是永远在线的(online),是随时能调用和计算的,这是大数据区别于传统数据最大的特征。通常用四个“V”来概括大数据的基本特征。
(1)数据体量巨大(Volume)。这是大数据的基本属性,伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据因此被大量生产出来。大量自动或人工产生的数据通过互联网聚集到特定地点,包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成了大数据之海。
1-10 拓展知识:流数据
(2)数据类型繁多(Variety)。数据来源、数据形式和数据内容等多样性导致数据被分为结构化数据和非结构化数据。相对于传统便于存储的以文本为主的结构化数据,绝大多数的大数据天生是非结构化或半结构化的数据,网络日志、音视频、图片、地理位置信息等非结构化数据越来越多。如高德、百度等电子地图的出现,产生了大量的流数据,这些数据代表着一种行为、一种习惯,多样性的数据对数据的处理能力提出了更高要求。
(3)价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”已成为目前大数据背景下亟待解决的难题。
(4)处理速度快(Velocity)。海量数据能被快速获取、整理和实时分析,这是大数据区分于传统数据挖掘的最显著特征。根据IDC(国际数据公司)的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB, 1TB=1024GB,1GB=1024MB)。在数据处理速度方面,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。如谷歌统计,网页加载时间超过4秒,25%的人会放弃。在如此海量的数据面前,处理数据的效率就是企业的生命。
3.大数据的营销价值
思考题 大数据到底能给我们带来哪些营销价值呢?
1-11 拓展知识:如何让市场调研数据发挥最大价值
随着大数据时代的到来,越来越多的行业企业认识到数据对于营销的重要性,对大数据商业价值的挖掘和利用逐渐成为各行业企业争相追捧的利润焦点。企业从庞杂的数据背后挖掘、分析用户的行为习惯和偏好,找出更符合用户口味的产品和服务,并结合用户需求有针对性地调整和优化自身策略,就是大数据的价值。大数据意味着一套完整的解决方案,包括数据、业务、需求三个部分,明确“什么样的数据”可以支撑“什么业务形式”,满足客户的“什么需求”。因此,基于大数据分析的结果,进行资源优化配置,才是大数据应用的落地点和真正价值。大数据最大的价值不是事后分析,而是预测和推荐。大数据的营销价值具体体现在精准营销、市场预测等多个方面,但最核心的价值就是商业价值。在如今的大消费背景下,对于消费者数据的收集与分析突破了产业边界,只有跨场景跨行业的数据交付才能得到全面多维度的消费者数据,实现精准的商业分析。先来看一个坐姿与汽车防盗系统的案例。当一个人坐着的时候,他的身形、姿势和重量分布都可以量化和数据化。
日本先进工业技术研究所的越水重臣和他的工程师团队做了一个关于人的坐姿的研究。他们在汽车座椅下部安装总共360个压力传感器,用以测量人对椅子施加压力的方式,把人体屁股特征转化成了数据,并且用0—256这个数值范围对其进行量化,这样就会产生独属于每个乘坐者的精确数据资料。在实验中,系统能根据人体对座位的压力差异识别出乘坐者的身份,准确率高达98%。这个系统不但可以发现车辆被盗,而且可以通过收集到的数据识别出盗贼的身份。
(1)精准营销。大数据分析背后的逻辑就是先找到人,然后利用大数据,按年龄、职业、学历、收入等维度分析用户的偏好和习惯,了解用户的购买习惯和行为,按照认知、认可和认购标准将用户进行标签化(用户画像)并划分为受众、顾客和粉丝三个细分群体,从而有效地筛选目标群体做到精准定位,在合适的时间、合适的地点、将合适的产品以合适的方式提供给合适的客户群体,保证广告与营销信息的精准推送,实现精准营销的目的。例如银泰在2017年8月推出付费会员卡,线上线下全面收集顾客数据,根据用户在银泰APP和淘宝、天猫等平台的购物记录,掌握更准确的消费者数据,识别顾客的需求,提供更个性化的商品推荐和服务,从而实现对会员的精准营销。
1-12 拓展知识:搞定用户画像只需五个步骤
那么,如何提升营销的精准性并实现效果的准确评估?由于数字媒体的分散化和传统评估方法的不适用性,数字媒体有效性被厂商认为是最缺乏数据支持的环节,61%的厂商认为数字媒体很重要但无法被有效评估,直接影响营销的精准触达。尼尔森认为,关键在于打通全链路生态(见图1-12),量化每个真实触点,精准还原站内外从“看”到“买”的数据。全链路的关键之一在于线上线下购物行为的交互和融通,从而找到最有效的营销触点,打造极致用户体验,最终助力销售转化。因此,真正的精准营销是:正确的内容营销+正确的渠道。有数据显示,在淘宝,每一天的上网高峰期主要集中在中午12点之后和晚上12点之前。分析发现,出现这种“怪现象”的原因是现代人普遍在睡觉前有上网的习惯。于是,有些淘宝商家就利用消费者这种“强迫症”,在晚上12点进行促销秒杀活动,带动销量的倍增。
图1-12 新商业环境下快消品企业的制胜之道
(2)市场预测。对未来事态的预测和对未知事物的预估是目前业界对大数据最看重的价值之一。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。基于大数据的分析与预测已得到广泛应用,对于企业家提供洞察新市场与把握经济走向予以极大的支持。例如,阿里巴巴从大量交易数据中较早地发现了国际金融危机的到来,从而做好防范;微软研究院的David Rothschild通过大数据分析,对第85届奥斯卡各奖项的归属进行了预测,除最佳导演外,其他各项奖预测全部命中。
4.大数据思维方式
思考题 大数据时代我们应该具有怎样的思维方式?
“大数据之父”舍恩伯格认为,世界的本质就是大数据,大数据正在开启重大的时代转型。大数据正在改变人们的生活以及理解世界的方式,正在成为新发明和新服务的源泉。大数据思维是新的思维观,用大数据思维方式思考问题、解决问题是当下企业潮流。大数据思维最关键的转变在于从自然思维转向智能思维,使得大数据像具有生命力一样,获得类似于“人脑”的智能,甚至智慧。
(1)总体思维。在大数据时代,随着数据收集、存储、分析技术的突破性发展,人们可以更加方便、快捷、动态地获得与分析更多的数据,甚至是与之相关的所有数据,而不再因诸多限制不得不采用样本研究方法,从而可以获得更全面的认识,可以更清楚地发现样本无法揭示的细节信息。因此,人的思维方式也应该从样本思维转向总体思维,从而能够更加全面、立体、系统地认识总体状况。
(2)容错思维。以前由于收集的样本信息量比较少,必须确保记录下来的数据尽量结构化、精确化,否则,分析得出的结论在推断总体上就会“南辕北辙”,因此,就必须十分注重精确思维。在大数据时代,得益于大数据技术的突破,大量的非结构化、异构化的数据能够得到储存和分析,既提升了从数据中获取知识和洞察力的能力,又对传统的精确思维造成了挑战。舍恩伯格指出,“执迷于精确性是信息缺乏时代和模拟时代的产物。大数据时代,只有5%的数据是结构化且能适用于传统数据库的,如果不接受混乱,剩下95%的非结构化数据都无法利用。只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户”。因此,思维方式要从精确思维转向容错思维。当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,容许一定程度的错误与混杂,反而可以在宏观层面拥有更好的知识和洞察力。
(3)相关思维。在小数据世界中,人们往往执着于现象背后的因果关系,试图通过有限的样本数据来剖析其中的内在机理,但有限的样本数据无法反映出事物之间的普遍性的相关关系。而大数据的出现让人们放弃了对因果关系的渴求,转而关注相关关系,只需知道“是什么”,而不用知道“为什么”。人们可以通过大数据技术挖掘出事物之间隐蔽的相关关系,获得更多的认知与洞察力,捕捉现在和预测未来。因此,思维方式要从因果思维转向相关思维。只有努力颠覆千百年来人类形成的传统思维模式和固有偏见,才能更好地分享大数据带来的深刻洞察力。
(4)智能思维。随着物联网、云计算、社会计算、可视技术等的突破发展,大数据系统能够自动地搜索所有相关的数据信息,并进而类似“人脑”一样主动、立体、逻辑地分析数据、做出判断、提供洞察力。那么,其无疑也就具有了类似人类的智能思维能力和预测未来的能力。因此,人的思维方式也要求从自然思维转向智能思维,这才是大数据思维转变的关键所在、核心内容。
5.数据分析应用场景
数据分析师最重要的技能是将数据转化为非定量的、清晰的、有意义的见解的能力。在数据科学领域中根据价值和复杂性两个维度,将数据分析划分为四种模式(见图1-13):描述型(Descriptive)、诊断型(Diagnostic)、预测型(Predictive)和指导型(Prescriptive)。四种数据分析模式应用的比较如表1-7所示。
图1-13 四种数据分析模式
表1-7 四种数据分析模式应用比较
1.2.2 数据挖掘的功能
思考题 什么是数据挖掘?它有哪些具体功能,能在哪些领域得到广泛应用?
1-13 视频:数据挖掘的功能
生活中每天都会产生海量数据,企业想要将大数据变成资产并获取商业价值,就需要学会运用数据挖掘技术对大数据进行挖掘分析。大数据技术应用的经典案例就是“啤酒+尿布”。美国沃尔玛连锁超市通过大数据分析发现了一个特别有趣的现象——尿布与啤酒这两种风马牛不相及的商品的销售数据曲线竟然出奇的相似,于是就将尿布与啤酒摆在一起。没想到这一举措居然使尿布和啤酒的销量大幅增加了。这就是真实的大数据案例:购物篮分析。
1.数据挖掘的定义
数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程。它是一种决策支持过程,主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。可以从技术和商业两个角度来理解数据挖掘。
(1)技术角度的定义。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过算法搜索提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
(2)商业角度的定义。数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的规律或验证已知的规律,并进一步将其模型化的先进有效的方法。
思考题 数据挖掘与传统的数据分析有什么区别呢?
2.与数据分析的关系
(1)联系。数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,具有循环递归的关系。数据分析结果需要进一步进行数据挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。如果想要从数据中提取一定的规律(或认知),往往需要数据分析和数据挖掘结合使用,这样才能将数据的有用性发挥到极致。
(2)区别。本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
1)数据量:数据分析的数据量可能并不大,而数据挖掘的数据量极大。进行数据挖掘时,采用人工智能、机器学习、统计学和数据库等方法应用于较大型数据集。
2)条件约束:数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,针对先验的约束,对数据进行整理、筛选、加工,由此得到信息。数据挖掘不需要假设,可以自动建立方程,对经过数据分析的信息进行价值化的分析。
3)数据对象:数据分析往往是针对数字化的数据,而数据挖掘能够采用不同类型的数据,如声音、文本等。
4)侧重点:数据分析更侧重业务,数据挖掘更侧重技术。数据分析强调基于新的发现支持业务决策,最关键的是转换到业务行动中发挥数据价值,重点在于数据的有效性、真实性和先验约束的正确性。而数据挖掘关注的焦点在于技术创新而非业务含义,从实验室完成模型孵化,到模型管理、模型部署等严谨的工程化过程,重点在于对信息的价值化的获取,不考虑数据本身,而是考虑数据是否有价值。
5)使用方法:数据分析主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法。数据挖掘主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法。
6)目标设定:数据分析的目标比较明确、分析条件清楚,对历史成绩的相关数据进行多维度的描述,分析哪方面做得好和哪方面需要改进。数据挖掘的目标却不是很清晰,要依靠挖掘算法来找出隐藏在大量数据中的规律和模式,目的是从数据中提取出隐含的、未知的有价值的信息,发现知识规则。
7)结果使用:数据分析对结果进行解释,发现有用信息、建设性结论以及辅助决策,呈现出有效信息,可以实现现状分析、原因分析、预测分析(定量)等作用。数据挖掘的结果不容易解释,主要是对信息进行价值评估,着眼于预测未来并提出决策性建议,侧重解决分类、聚类、关联和预测(定量、定性)等四类问题,如电信客户分类、客户流失预测、购物篮分析等。例如针对啤酒与尿布的历史销售数据,数据分析是分析购买各种商品的消费者的具体特征,数据挖掘是使用关联规则挖掘分析购买啤酒的消费者还会购买其他什么产品。
3.数据挖掘的功能
数据挖掘的目标是从数据库中发现隐含的、有意义的知识,通过数据挖掘预测未来的趋势及行为,并自动探测以前未发现的模式,做出前摄的、基于知识的决策。具体有以下五大功能:
(1)自动预测。数据挖掘自动在大型数据库中寻找变化规律,建立模型,并以此来预测未来数据的种类和特征以及未来的趋势和行为。简单而言,就是从大数据中获取信息以便对未来结果进行预测和估计的过程。通常来说,对营销类的预测应用,预测分析的目标是购买行为。一个典型的例子就是采用数据挖掘技术通过过去有关促销的数据来寻找未来投资中回报最大的用户。就在2010年,预测专家安德鲁·波尔提出了预测消费者怀孕的案例,讲述了目标超市通过对消费者的购买记录做大数据预测分析,就可以比较准确地预测哪些女性消费者会在未来数月里生孩子。
(2)关联分析。关联分析的目的是找出数据库中隐藏的关联网,可分为简单关联、时序关联、因果关联。若两个或多个数据项的取值重复出现且概率很高时,它就存在着某种关联,可以建立起这些数据项的关联规则。在大型数据库中,这种关联规则是很多的,一般用“支持度”“可信度”两个阈值来淘汰那些无用的关联规则。在一些商业交易中,如在超市里,有些商品会被同时购买,很多顾客在购买牛奶的同时也会购买面包,这样经常一起出现的事物就是一种频繁项集。另外有些事物可能是相继出现的,例如很多消费者先买了一台笔记本电脑,然后会买数码相机,再接着他们会买内存卡,这就是一种频繁(顺序)模式。对频繁模式的挖掘有利于发现数据之中的一些有趣的关联。
(3)聚类分析。聚类是指数据库中的数据可分为一系列有意义的子集,而聚类分析就是对未知类别标号的数据进行直接处理。在很多情况下,类别标号已知的训练数据可能在最开始是无法获得的。在聚类过程中,聚类的原则是使类内数据的相似性最大,而使类间数据的相似性最小。每一个聚类可以看成是一个类别,从中可以导出分类的规则。聚类增强了人们对客观现实的认识,通过聚类建立宏观概念是概念描述和偏差分析的先决条件,可以应用到客户群体分类、客户背景分析、客户购买趋势预测、市场细分等方面。如全国女性胸部数据比较:根据淘宝数据平台显示,以省市排名,新疆最大,黑龙江最小,粤江浙丰胸需求最强。
(4)概念描述。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征,分为特征性描述和区别性描述。
特征性描述是对某类数据的一般特征或属性的总结,描述某类对象的共同特征,只涉及该类对象中所有对象的共性,其结果可以以饼图、条形图、曲线、多维数据立方体、多维表等多种方式进行展现。例如2015年新浪博客从大数据看中国人写作群体特征。新浪博客的写作者在2015年达到1309万人,作者的年龄分布中,21—30岁的人比例最大,几乎接近一半(47%);从博主的地域分布来看,广东最多,为13.4%,北京次之,为10.5%,浙江第三,为8.72%。
区别性描述是将某类数据的一般特征与另一个或多个类别数据的一般特征进行比较,描述不同类对象之间的区别,具体方法有决策树方法、遗传算法等。以电影《私人订制》和《小时代》为例,百度视频的数据显示,《私人订制》的观看人群主要集中在20岁到39岁的男性,《小时代》的观看人群主要集中在29岁以下的女性。
(5)偏差检测。在数据挖掘中,偏差检测又称为离群点诊断,其目的是寻找观测结果与参照值之间有意义的差别,诊断对象是离群点(或称为孤立点)。数据库中的数据常有一些异常记录,包括很大一类潜在有趣的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间变化的偏差等。离群点诊断能用于欺诈监测,如探测不寻常的信用卡使用或电信服务,也可以在市场分析中用于确定极低或极高收入客户的消费行为。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则,因为对意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。
4.数据挖掘的应用领域
数据挖掘应用的领域非常广泛,我们每天都可以看到大数据的一些新颖的应用。只要有分析价值与需求的数据,都可以利用挖掘工具进行发掘分析。目前,数据挖掘应用最集中的行业领域包括金融、医疗、零售、交通、通信、社交网络等,而且每个领域都有特定的应用问题和应用背景。
(1)金融领域。金融数据具有可靠性、完整性和高质量等特点,这些数据的特点在很大程度上有利于开展数据挖掘工作以及挖掘技术的应用。数据挖掘在金融领域的具体应用有:分析多维数据,以把握金融市场的变化趋势;运用孤立点分析等方法,研究洗黑钱等犯罪活动;应用分类技术,对顾客信用进行分类,为维持与客户的关系以及为客户提供相关服务等决策提供参考;等等。
(2)医疗领域。在人类的遗传密码、遗传史、疾病史以及医疗方法等医疗领域中,都隐藏着海量的数据信息。另外,在对医院内部结构、医药器具、病人档案以及其他资料等的管理过程中也产生了巨量的数据。运用数据挖掘相关技术对这些巨量的数据进行处理,从而发现疾病的相关知识规律,提高诊断的准确率和治疗的有效性,将有利于医疗机构工作的开展。大数据技术现在已经在医院应用于监视早产婴儿和患病婴儿的情况,通过记录和剖析婴儿的心跳,医生针对婴儿的身体可能会出现的不适症状做出预测,以更好地救助婴儿。
(3)零售领域。运用聚类、分类等数据挖掘算法对这些海量的销售数据进行分析,可以有效地识别顾客的购买行为和发现新的客户群,从而把握好顾客购买的趋势,并用来区分和优化营销活动,使得精准营销变得可能。例如2016年零售行业发展报告分析指出零售行业细分业态消费人群剪影,传统百货消费人群为已婚,有车,≤45岁,偏爱华为、三星设备,医疗、珠宝手表线下消费意愿高;商业超市消费人群为26—45岁,偏好小米、OPPO设备,母婴、汽车服务线下消费意愿高;购物中心消费人群为≤35岁,偏好乐视、索尼设备,休闲娱乐、服饰鞋帽线下消费意愿高,爱好图片摄影,喜欢生活服务。因此,企业可以根据数据挖掘结果有针对性地采取有效措施,比如改进服务质量、优化运输路线等。
(4)交通领域。该领域积累了大量的数据,比如出租公司积累的乘客出行数据、公交公司的运营数据、航空公司的乘客数据。通过对乘客数据和运营数据进行分析和挖掘,能够为公交、出租公司的运营和交通部门的决策提供依据。比如合理规划公交线路、实时为出租车的行驶线路提供建议等,可以有效减少交通拥堵问题,提升城市运力和幸福指数;航空公司也可依据历史记录来寻找乘客的旅行模式,以便提供更加个性化的服务,合理设置航线。
(5)通信领域。通信运营商已逐渐发展成为融合语音、图像、视频等增值服务的全方位立体化的综合服务商。通信运营商运用多维分析等数据挖掘技术,对用户行为、利润率、通信速率和容量、系统负载等数据进行分析;运用聚类或孤立点分析等方法来发现异常模式;运用关联或序列等方法对通信发展的影响因素进行分析;等等。如中国电信的弹窗广告营销,就是以电信全国绝大部分用户的大数据为基础、通过云技术平台实现的全国范围的电信互联网用户的全面行为数据的采集分析及信息推送服务。
(6)社交网络领域。移动互联网时代,社交网络已经不断普及并深入人心,用户可以随时随地在网络上分享内容,形成了用户与用户、用户与主题、用户与活动的关系网,由此产生了一种图结构的海量的用户数据。社交网络分析就是从关系和结构两个方面来了解、度量和预测行为。例如通过对社交网络数据进行爬取和分析,图形化地帮助企业展示其在社交网络中的用户口碑和用户对各种产品的意见,及时动态地显示某个重点事件在网络中传播的路径和范围,帮助企业监测热点事件,及时响应网络上的用户意见,及时准确地改善服务质量,提升企业的品牌形象。
1.2.3 数据挖掘的流程
1-14 视频:数据挖掘的流程
大数据时代,数据挖掘是最关键的工作。如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘。数据挖掘流程就是一个从大量数据中提取或挖掘出有价值的知识的过程。而CRISP-DM和SEMMA是两种常用的数据挖掘流程。其中CRISP-DM(cross-industry standard process for data mining,跨行业数据挖掘标准流程)模型于1999年由欧盟机构联合起草,是目前业界主流的数据挖掘流程,在各种KDD(Knowledge Discovery in Database,知识发现)过程模型中占据领先位置,2014年统计表明,其采用量达到43%。CRISP-DM模型提供了开放的、可自由使用的数据挖掘标准过程,使数据挖掘适合于商业或研究单位的问题求解策略。
现以CRISP-DM为例介绍跨行业数据挖掘标准流程,一个数据挖掘项目的生命周期包含商业理解、数据理解、数据准备、模型构建、模型评估和模型部署六个阶段(见图1-14)。每个阶段的顺序是不固定的,经常需要前后调整,这取决于每个阶段或是阶段中特定任务的产出物是否是下一个阶段必需的输入。在数据挖掘中,至少60%的费用可能要花在信息收集阶段,而至少60%以上的精力和时间是花在数据预处理上。
图1-14 跨行业数据挖掘标准流程
1.商业理解(business understanding)
在这个阶段,我们的精力集中在从商业的角度了解项目的要求和最终目的是什么,并将这些目的转化为数据挖掘问题的定义和完成目标的初步计划。其主要工作任务包括分析业务需求、定义问题的范围、定义计算模型所使用的度量以及定义数据挖掘项目的特定目标。
将这些工作任务转换为下列问题:
您在查找什么?您要尝试找到什么类型的关系?您要尝试解决的问题是否反映了业务策略或流程?您要通过数据挖掘模型进行预测,还是仅仅查找受关注的模式和关联?您要尝试预测哪个结果或属性?
您具有什么类型的数据以及每列中包含什么类型的信息?或者如果有多个表,则表如何关联?您是否需要执行清除、聚合或处理以使数据可用?
数据如何分布?数据是否具有季节性性质?数据是否可以准确反映业务流程?
若要回答这些问题,可能必须进行数据可用性研究,必须调查业务用户对可用数据的需求。如果数据不支持用户的需求,则还必须重新定义项目。
此外,还需要考虑如何将模型结果纳入用于度量业务进度的KPI(关键绩效指标)。
可以通过四步走来完成上述工作:
(1)确定业务目标。从业务角度全面理解挖掘的真正意图和需求,除此之外还应包括一个对数据挖掘项目结果进行评价的标准以及整个项目预算和理性的解释。输出结果:背景、业务目标、项目成功标准。
(2)评估环境。对所有的资源、约束、假设和其他应考虑的因素进行详细的分析和评估,以便下一步确定数据分析目标和项目计划。输出结果:资源清单、需求、假设和约束、风险和所有费用、术语表、成本、收益。
(3)确定数据挖掘目标。与业务目标不同,数据挖掘目标是从技术的角度描述项目的目的。输出结果:数据挖掘目标、数据挖掘成功标准。
(4)产生项目计划。计划应列出将要执行的阶段,以及每个阶段的详细计划(包括每个阶段的时间、所需资源、输入、输出和依赖)。输出结果:项目计划、工具和技术的初步评价。
2.数据理解(data understanding)
此阶段的工作目的就是基于对业务问题的梳理分析,筛选所需数据,校验数据质量,了解数据含义及特性,找到合适的分析方法指导模型指标设计,确保指标体系化、全面性。此阶段的工作首先从初始的数据收集开始,然后通过对数据进行装载、描绘,探索数据特征并进行简单的特征统计等活动熟悉数据,识别数据的质量问题,如数据的完整性和正确性、缺失值的填补等,首次发现数据的内部属性,或是探测数据中比较有趣的数据子集去形成隐含信息的假设。探索数据是对数据进行初步研究,以便更好地了解数据的特征,为建模的变量和算法选择提供依据,具有启发式、开放式等特点。
3.数据准备(data preparation)
数据准备阶段是数据挖掘中耗时最多的环节,涵盖了从原始粗糙数据中构建最终数据集(将作为建模工具的分析对象)的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。这些数据将是模型工具的输入值,涉及初始数据、原始数据和脏数据。数据可以分散在公司的各个部门并以不同的格式存储,或者可能包含错误项或缺少项之类的不一致性。例如,数据可能显示客户在产品推向市场之前购买该产品,或者客户在距离她家3000公里远的商店定期购物。
这一阶段的任务是根据与数据挖掘目标的相关性、数据质量以及技术限制,选择作为分析使用的数据,并进一步对数据进行清理转换,构造衍生变量,整合数据,并根据工具的要求格式化数据。通过数据选择、数据清洗、数据审核和数据集成完成上述所有工作。
(1)数据选择。在选择数据时要确保建模数据的完整性和可用性,我们从数据源中搜索所有与业务对象有关的内部和外部数据信息,并选择适合数据挖掘应用的数据。从选择的数据类型看,大多数商业应用中都会包含交易数据、关系数据和人口统计数据这三类数据。
(2)数据清洗。数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗不仅仅是删除错误数据或插入缺失值,还包括查找数据中的隐含相关性、标识最准确的数据源并确定哪些列最适合用于分析。例如,应当使用发货日期还是订购日期?最佳销售影响因素是数量、总价格,还是打折价格?不完整数据、错误数据和输入看似独立,但实际上都有很强的关联性,它们可以以意想不到的方式影响模型的结果。
(3)数据审核。通过对数据统计错误、数据源错误和数据统计口径进行审核,能有效地解决极值、离群值和缺失值问题,是数据准备中不可或缺的一步。进行完数据审核后,就可以生成数据了。
(4)数据集成。最后一步就是集成并转换数据,以便协调不同系统在定义各种数据元素并使之结构化的方式上存在的差异。例如,对于“客户盈利”,营销系统和财务系统可能具有完全不同的业务定义和数据格式,这些差异必须得到解决。将不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
4.模型构建(modeling)
模型的构建是数据挖掘的核心。在这一阶段,根据建模场景,结合数值特征、数据量大小和建模方法自身特点,选择和使用具体建模方法,通过建造模型,将评估模型的参数校准为最为理想的值,进行效果比较后选择最优方法或组合。比较典型的情况是,对于同一个数据挖掘的问题类型,可以有多种方法供选择使用,如描述类有分类、聚类分析,可应用于客户细分、客户行为分群、市场细分等场景;预测类有时间序列、回归分析、关联分析、偏差检测,可应用于风险预测、产品交叉销售、潜在客户挖掘、客户流失预测、客户欺诈分析等场景;评估类有因子分析、主成分分析、数学公式,可应用于客户价值评估、客户满意度评估、客户稳定度评估、渠道价值评估等场景。如果有多重技术要使用,那么对于每一个要使用的技术要分别对待。同时一些建模方法对数据的形式有具体的要求,因此,需要经常跳回到数据准备阶段。
5.模型评估(evaluation)
到项目的这个阶段,已从数据分析的角度建立了一个或多个高质量显示的模型。但在进行最终的模型部署之前,要更加彻底地评估模型,就需要全面回顾在构建模型过程中所执行的每一个步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题仍未被充分地加以注意和考虑。在这一阶段结束之时,有关数据挖掘结果的使用应达成一致的决定。
评估模型首先是看模型是否有效。一个良好的数据挖掘模型,在投入实际应用之前,需要经过多方面的评估,从而确定它能完全达到商业目标。评估数据挖掘模型优劣的指标很多,比如精确度、提升、增益等,其中精确度是最基本和最简单的指标。其次是看模型的实际应用效果如何,即模型到底能带来什么业务上的价值,就是数据挖掘模型的可解释性。在对模型进行评估时,既要参照评估标准,也要考虑到商业目标和商业成功的标准,片面地追求预测正确率就会忽视了数据挖掘的初衷。因此,挖掘产生结果的可解释性和实用性,才是最根本的标准。例如在解决客户流失问题中,预测模型捕捉的流失客户多,不一定就代表能够协助挽留较多的客户,关键在于预测结果对挽留客户的营销活动的制定有多大的帮助。
6.模型部署(deployment)
此阶段就是将模型发现的结果以及过程组织成为一套可读文本形式的、完整的专题解决方案。根据需求的不同,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在许多案例中,往往是客户而不是数据分析人员来承担部署的工作。然而,对于客户而言,预先了解需要执行的活动,从而正确地使用已构建的模型是非常重要的。
数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。
1.2.4 数据分析职业岗位
近年来,随着人们的数据意识和数据素养不断提升,商业智能和数据分析领域迎来了快速发展,企业对新型大数据分析和预测技术人才的热情和需求正在超过传统的商业智能和信息管理人才。目前大数据行业将面临全球性的人才荒,未来五年大数据人才缺口会持续增长。根据麦肯锡报告,仅仅在美国市场,2018年大数据人才和高级分析专家的人才缺口就高达19万。此外美国企业还需要150万名能够提出正确问题、运用大数据分析结果的大数据相关管理人才。中国商业联合会数据分析专业委员会统计,目前全国的大数据人才只有46万,未来中国基础性数据分析人才的缺口将高达1400万,而在BAT企业(百度、阿里巴巴、腾讯)招聘的职位里,60%以上都是大数据人才。领英发布的《2016年中国最热职位人才报告》是基于领英平台上约50万的中国各个行业人才大数据,其分析表明,数据分析人才最为稀缺。数据分析职位体系如图1-15所示。
图1-15 数据分析职位体系
1.数据分析职业内容
1-15 拓展知识:中国数据分析行业自律公约
数据分析是指运用统计方法和分析工具对大量数据进行分析,挖掘出其潜在规律及价值,为经营决策提供科学严谨的理性依据。在实际应用中,数据分析将数学原理和计算机技术进行有机结合,利用大量非结构化数据,遵循设计方案、数据采集、数据处理、数据分析、出具报告五个步骤,挖掘出隐藏信息,总结其内在规律,以达到精准营销。
典型的数据分析应用主要体现在以下三个方面:
(1)探索性数据分析。当数据刚获得时,可能杂乱无章,看不出规律,探索性分析就是通过做图、造表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。
(2)模型选定分析。在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
(3)推断分析。通常使用数理统计方法对所定模型或估计的可靠程度和精确程度做出推断。
2.数据分析师
数据分析师是指在互联网、零售、金融、电信、医学、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才。数据分析员是企业根据发展需求和方向培养的专门从事基础数据分析的人员,能够进行较高级的数据统计分析和模型建立,负责企业销售、会计、客服、人事行政等部门数据来源的采集、分析,报表设计和呈现。它是企业数据化发展中的标配人员。而数据分析师则是从事数据分析的高级决策人才,运用先进的数据分析工具,为经营决策提供科学、合理的依据,是大数据时代不可或缺的核心人才。
数据分析师岗位任职要求如表1-8所示。
表1-8 数据分析师任职要求
数据分析师职业等级及其标准如图1-16、表1-9所示。
图1-16 数据分析职业等级
表1-9 数据分析师职业等级标准
3.数据挖掘工程师
数据挖掘工程师是指通过算法搜索大量数据中隐藏的知识的工程技术专业人员。这些知识可以使企业决策智能化、自动化,从而使企业提高工作效率,减少错误决策的可能性。例如采用数据挖掘技术对产品生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高产品的优良率。数据挖掘工程师的任职要求如表1-10所示。
表1-10 数据挖掘工程师任职要求
从岗位定位上来看,在大数据团队中,数据开发工程师、数据挖掘工程师、数据分析师这三个职位分别是开发者、构建者和分析者的角色(见图1-17),也是最核心的成员,这三个角色组合起来,可以覆盖大部分企业大数据项目需求。
图1-17 数据分析职业角色定位
从工作内容来看,数据分析师是业务线,负责通过数据分析手段发现和分析业务问题,为决策提供支持;数据挖掘工程师是偏技术线,负责通过建立模型、算法、预测等提供一些通用的解决方案;数据工程师是技术线,负责仓库搭建,数据的存储、处理,计算处理,报表开发等。在很多企业中,数据分析师和数据挖掘工程师一般是可以相互替代的,也未加以区分。目前,大数据领域三个大的技术方向分别为:(1)Hadoop大数据开发方向,对应岗位为大数据开发工程师、爬虫工程师、数据分析师等。其中作为大数据的基础性人才——数据分析师的月平均工资达1万多元,Hadoop开发工程师的月平均工资达2万多元,具有2~3年工作经验的Hadoop开发工程师年薪为30万~50万元。(2)数据挖掘、数据分析和机器学习方向,对应岗位为数据科学家、数据挖掘工程师、机器学习工程师等。其中数据挖掘工程师的月平均工资达2万多元;(3)大数据运维和云计算方向,对应岗位为大数据运维工程师。