大数据技术导论
上QQ阅读APP看书,第一时间看更新

1.1.5 大数据时代的八个重大变革

(1)决策方式:目标驱动→数据驱动

传统科学思维中,决策制定往往是“目标”或“模型”驱动的——根据目标(或模型)进行决策。然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。例如,近年来,很多高新企业中的部门和岗位设置不再是“固化的”,而是根据所做项目与所处的数据环境,随时动态调整其部门和岗位设置。然而,部门和岗位设置的敏捷性往往是基于数据驱动的,根据数据分析的结果灵活调整企业内部结构。

(2)方法论:基于知识的方法→基于数据的方法

传统的方法论往往是“基于知识”的,即从“大量实践(数据)”中总结和提炼出一般性知识(定理、模式、模型、函数等)之后,用知识去解决(或解释)问题。因此,传统的问题解决思路是“问题→知识→问题”,即根据问题找“知识”,并用“知识”解决“问题”。然而,数据科学中兴起了另一种方法论——“问题→数据→问题”,即根据问题找“数据”,并直接用数据(不需要把“数据”转换成“知识”的前提下)解决问题。

(3)计算方式:复杂算法→简单分析

“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识。因此,在大数据时代,原本复杂的“智能问题”变成简单的“数据问题”——只要对大数据进行简单查询就可以达到“基于复杂算法的智能计算的效果”。为此,很多学者曾讨论过一个重要话题——“大数据时代需要的是更多数据还是更好的模型?”。机器翻译是传统自然语言技术领域的难点,虽曾提出过很多种“算法”,但应用效果并不理想。近年来,Google翻译等工具改变了“实现策略”,不再仅靠复杂算法进行翻译,而对他们之前收集的跨语言语料库进行简单查询的方式,提升了机器翻译的效果和效率。

(4)管理方式:业务数据化→数据业务化

在大数据时代,企业需要重视一个新的课题——数据业务化,即如何“基于数据”动态地定义、优化和重组业务及其流程,进而提升业务的敏捷性,降低风险和成本。但是,在传统数据管理中人们更加关注的是业务的数据化问题,即如何将业务活动以数据方式记录下来,以便进行业务审计、分析与挖掘。可见,业务数据化是前提,而数据业务化是目标。

(5)研究范式:第三范式→第四范式

2007年,图灵奖获得者Jim Gray提出了科学研究的第四范式——数据密集型科学。在他看来,人类科学研究活动已经历过三种不同范式的演变过程(原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”),目前正在从“计算科学范式”转向“数据密集型科学范式”,即第四范式。

(6)数据的属性:数据是资源→数据是资产

在大数据时代,数据不仅是一种“资源”,而更是一种重要的“资产”。因此,数据科学应把数据当作“一种资产来管理”,而不能仅仅当作“资源”来对待。也就是说,与其他类型的资产一样,数据也具有财务价值,且需要作为独立实体进行组织与管理。

(7)数据处理模式:小众参与→大众协同

传统科学中,数据的分析和挖掘都是具有很高专业素养的“企业核心员工”的事情,企业管理的重要目的是如何激励和绩效考核这些“核心员工”。但是,在大数据时代,基于“核心员工”的创新工作成本和风险越来越大,而协同日益受到重视(见图1.10)。

(8)思维方式:抽样思维→整体思维+相关思维+容错思维

1)整体思维。整体思维是根据全部样本得到结论,即“样本=总体”。因为大数据是建立在掌握所有数据,至少是尽可能多的数据基础上,所以整体思维可以正确地考查细节并进行新的分析。

如果数据足够多,则会让人们觉得有足够的能力把握未来,从而做出自己的决定。

结论:从抽样中得到的结论总是有水分的,而根据全部样本得到的结论水分就很少,数据越大,真实性也就越大。

2)相关思维。相关思维要求人们只需要知道是什么,而不需要知道为什么。在这个不确定的时代,等找到准确的因果关系,再去办事的时候,这个事情早已经不值得办了。所以,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。

图1.10 大数据需要协同

结论:为了得到即时信息,实时预测,寻找到相关性信息,比寻找因果关系信息更重要。

3)容错思维。实践表明,只有5%的数据是结构化且能适用于传统数据库的。如果不接受容错思维,剩下95%的非结构化数据都无法被利用。

对小数据而言,因为收集的信息量比较少,必须确保记下来的数据尽量精确。然而,在大数据时代,放松了容错的标准,人们可以利用这95%数据做更多新的事情,当然,数据不可能完全错误。

结论:容错思维可以利用95%的非结构化数据,帮助人们进一步接近事实的真相。