
前言
感谢您选择“CDA数据分析师”Level I学习系列丛书之《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》。
该丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析、推断性分析、参数估计、假设检验、方差分析、回归分析等内容,这在第一本书《从零进阶!数据分析的统计基础(第2版)》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》中利用SAS EG、SPSS和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SPSS和SAS EG进阶(第2版)》中进行了详细的讲解和操作分析。
CDA数据分析师丛书整体风格是“理论>技术>应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。
读者对象
作为丛书中的一本,本书上承基础理论部分,下启最终建模及案例分析。本书将关注点集中到数据的探索及预处理上,通过本书的学习将会加深对基础理论部分的理解,为后续的建模分析做好数据上的准备。本书适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。
阅读指南
对数据分析师而言,合适的数据就像好的食材,对最终分析结果的影响不言而喻,但是在日常的工作中我们会经常遇到两个问题,一是数据的质量不高,数据在收集、存储等过程中不可避免地出现了脏数据、不一致数据、噪声数据、重复数据等,如果我们不做任何预处理而直接输入模型,就会出现“garbage in,garbage out”,即垃圾进垃圾出的情况。二是数据的形式不符,因为不同的模型,建模技术都有一定的前提假设,对数据的展现形式、分布状态等都有较为严格的要求,如果不做预处理,模型出来的结果很可能与数据底层真正蕴含的规律背道而驰,对这种形式的数据盲目地进行建模分析,极容易误人误己。
数据预处理占到整个数据挖掘的60%~80%的时间,要想高效正确地完成数据的预处理工作其实不是一件容易的事情,本书作者根据在咨询公司、电信及金融行业的多年经验,将常用的数据预处理思路融入到SAS EG、SPSS的菜单操作中,并配以SAS程序的讲解,使得读者在熟悉菜单的同时,能用简单的SAS语言完成相对复杂的数据处理要求。
全书共分为10章:
第1章介绍了SAS EG、SPSS软件,并介绍了三种常见的数据分析流程;
第2章介绍了如何通过多种方式使SAS EG、SPSS可以轻松地访问多种形式的外部数据;
第3章介绍了探索性数据分析的基本思路,以及数据清理的相关理论,并分别演示了如何对类别数据、数值数据进行清理;
第4章、第5章介绍了如何对数据观测进行筛选和排序、抽样,以及数据的分组和汇总,如何对数据进行转置,使用函数等;
第6章介绍了如何在整体上对数据集进行操作,包括如何对数据集进行横向连接和纵向连接,数据集之间的比较创建格式等;
第7章讲解了数据的可视化及图表、报告的编制方法;
第8章、第9章介绍了如何在SAS EG中运用提示、程序等来提高数据处理效率;
第10章介绍了SQL语言基础和MySQL入门。
各部分相互独立,读者可以根据自己的需要选择性阅读。本书在第1版的基础上,新增了第10章,其他各章分别对应加入了SPSS的操作。
本书特点
1.关于SAS EG模块和SPSS实现功能比较的首本实战中文教材,通过比较,读者能更快掌握这两个应用最广、功能最强大的统计软件;
2.非单纯的逐个讲解菜单,而是将数据分析的基本思路、流程融入到软件的操作之中;
3.每一章节通过设置商业背景,基本理论讲解的形式更贴近读者的实际工作;
4.本书除讲解软件操作,还同时介绍了各种操作的SAS语言的实现过程,读者可以根据自己的基础逐步学习,进而走进SAS处理数据的大门。
学习方法
本书在编写上力求从读者的实战角度出发,每章基本上分为五部分:
1.商业背景的介绍;
2.相关的理论介绍;
3.EG软件的解决方案;
4.程序实现,包含实现菜单的程序的简单必要功能,读者可以轻松过渡到编程;
5.SPSS菜单解决方案;
6.扩展阅读,对于想深入学习SAS编程、数据准备的读者,进一步介绍了相关的学习内容及方向。
读者可以根据自己的需要来阅读,本书的菜单操作部分以SAS Eenterprise guide 5.1,SPSS22为例进行示范,代码部分以SAS 9.3为基础进行编写,读者在理解基本思路之后可以方便将其应用到其它版本之上。
售后服务
为方便读者学习,本书提供了书中实例的源文件下载,请读者进经管之家(http://bbs.pinggu.org/),注册后搜索“CDA教材源文件”关键词下载相应的源文件。
本书读者可以在经管之家的“数据挖掘与商业智能(http://bbs.pinggu.org/forum-133-1.html)”就书中的问题进行提问,也欢迎读者就自己遇到的业务问题和大家讨论。同时,也可以向作者发邮件,作者邮箱为xuxiaog_2003@163.com。
致谢
本书由经管之家主编,徐筱刚、常国珍、丁亚军负责编写和完成统稿。
丛书从策划到出版,倾注了电子工业出版社计算机图书分社张慧敏、石倩、张童、王静等多位编辑的心血,特在此表示衷心地感谢!
为保证丛书的质量,使其更贴近读者,我们组织了经管之家的多位版主和高级会员参与了本书第1版和第2版的预读工作,第1版是杨同梅、田佳、孙华枫、原瑜芬、叶阵雨、郑赟、李剑宇、江翊雪、陈鹏、刘莎莎、丁亚军;第2版是关继杰、殷子涵、种法辉。感谢各位预读员的辛勤、耐心与细致,使得本丛书能以更加完善的面目与各位读者见面,特别感谢覃智勇圆满地组织了第1版的预读工作和审校工作。
尽管作者们对书中的案例精益求精,但疏漏仍然在所难免,如果您发现书中的错误或某个案例有更好的解决方案,敬请登录社区网站向作者反馈,我们将尽快在社区中给出回复,且在本书再次印刷时修正。
再次感谢您的支持!