
前言
“大数据”已经成为近年来备受关注的热词,越来越多的人逐渐认识到,大数据将是新一轮产业革命的新动力、新引擎。相关报告预计未来5年,大数据或者数据工作者的岗位需求将激增,其中大数据分析师的缺口在140万~190万。但大数据人才培养以及数据科学研究似乎远未做好准备。据教育部公布数据显示:继2016年北京大学、中南大学、对外经贸大学首批设立大数据相关学科后,2017年中国人民大学、北京邮电大学、复旦大学等32所高校成为第二批成功申请“数据科学与大数据技术”本科新专业的高校。2018年新增“数据科学与大数据技术”专业的高校达248所,2019年又新增406所高校开设“数据科学与大数据技术”专业。
《大数据技术导论》是“数据科学与大数据技术”专业必修的第一门专业基础课,目前市场上大多数《大数据技术导论》教材只是作为专业技术课程的综述,专业术语过多,学生学起来很困难。本书的宗旨是导知识、导方法、导思维、导意识和导职业,而不是导技术。目的是把大数据思维、原理传递给想实践大数据的读者手中,不是让读者掌握大数据深奥的数学理论和复杂的环境搭建细节。因此,本书重点是在已搭建好的大数据平台下,实施大数据应用方案,注意力完全集中在能有效工作的大数据技术应用上,这样可以用最少的时间、最快的速度消化和部署大数据应用项目。
本书具有以下特点:
1)让读者从实践中学习大数据思维、原理和方法。书中给出了大量的故事和实验指导案例,指导读者一步一步迈向大数据世界。
2)学习大数据不需要很深的数学作为前提。无论你是谁,无论你来自哪里,无论你的受教育背景如何,都有能力使用书中提供的方法,解决大数据应用问题。
3)每一章都提供了一定数量的习题,用于检查学习效果。
4)为了减轻读者对编程基础的依赖,使文科专业也能学习大数据,本书采用R语言作为编程环境。
5)大数据生态环境Hadoop采用集群安装,实验更接近实际应用。
6)不仅理工科学生要掌握大数据技术,非理工科的学生也要掌握最基本的大数据技术,本书适合各类专业学习大数据技术。
带*号的章节为选学内容。
由于大数据领域发展迅猛,对许多问题编者并未做深入研究,一些有价值的新内容也来不及收入本书。加上编者知识水平和实践经验有限,书中难免存在不足之处,敬请读者批评指正。
编者