R数据挖掘实战
上QQ阅读APP看书,第一时间看更新

1.4 安装R语言和编写R语言代码

既然已经明白了R这门数据分析语言是值得学习的,那么让我们一起来看看如何安装R语言、编写R语言代码并运行它吧!首先,需要说明的是,安装R语言和安装一个可用于编写并运行R语言代码的集成开发环境(IDE)并不是同一回事。在本节中,这两部分的内容都会有所涉及,并且会让读者了解它们之间的区别。

1.4.1 下载R语言程序包

“安装R语言”指的是:在计算机上安装R语言解释器。通过该解释器,读者的计算机可以执行R命令、运行以“.R”作为文件扩展名的R脚本。可以通过R语言项目的官方服务器网站找到R语言的最新版本。

浏览上述网站,读者可以找到适用于不同操作系统的R语言程序包的下载链接,具体包括以下3种选择。

应用于Windows的R语言程序包。

应用于macOS 的R语言程序包。

应用于Linux的R语言程序包。

1.4.2 应用于Windows平台和macOS平台的R语言程序包

在Windows平台和macOS平台上安装R语言程序包,步骤都是相似的,具体如下。

1)在对应平台的R语言下载页面中下载相关文件包(见图1-2)。

2)在下载的文件包中找到适当的安装文件。

应用于Windows平台的安装文件有如下类似名称:R-3.3.2-win.exe。

应用于macOS平台的安装文件有如下类似名称:R-3.3.2.pkg。

3)运行安装文件,并等待安装程序执行完毕。

图1-2

一旦完成上述步骤,便完成了R语言程序包在所选定系统平台上的安装,并且可以使用它了。不过,对于Linux平台用户而言,其所需的安装步骤会有些不同。

1.4.3 应用于Linux平台的R语言程序包

在Linux平台上安装R语言,最简洁而直接的方法就是使用命令行。安装步骤很简单,只需打开终端,并执行下面的命令:

sudo apt-get update
sudo apt-get install r-base

在此期间,终端可能会提示读者输入管理员密码,从而以超级用户身份执行命令(sudo命令表示以超级用户身份执行命令)。

1.4.4 R语言基础版本安装的主要组件

在完成R语言程序包的安装之后,读者或许会问:到底安装了什么?马上解答这个问题。首先,R语言基础版本的软件包会携带一个适用的最新版本的R语言解释器。正如在1.1节中所提到的,安装R语言程序包之后,相应的计算机就能够读取、解析R代码,并执行由解析后的代码所组成的指令。读者可以在操作系统的命令行中使用如下代码来体验一下(读者需要根据自己的系统平台做出恰当选择)。

在Windows平台上(使用PowerShell):

echo "print('hello world')" >> new_script.R
Rscript.exe new_script.R

在macOS平台或者Linux平台上:

R
print('hello world')

上述两段命令都会在屏幕上输出“大名鼎鼎”的“hello world”(你好,世界)。

除了解释器之外,R语言基础版本还自带了一个非常基础的平台,用于开发和执行R语言代码。该基础平台主要由以下部分(见图1-3)组成。

R语言控制台:用来执行R语言代码并显示执行结果。

R语言脚本编辑器:用来编写R语言代码并将代码保存为单独的R脚本(使用“.R”扩展名)。

附加组件:提供一些功能,如数据导入、其他程序包安装、控制台历史操作导航等。

图1-3

在之前的很长一段时间里,R语言社区中的绝大部分人都是利用R语言基础版本自带的平台来编写和使用R代码的。如今,尽管该平台仍然能够很好地运行并且会得到定期更新,但跟很多更优秀的替代工具平台相比,该基础版已经有点儿落后了。有关这些替代工具平台的内容,将在1.4.5节中讲解。

1.4.5 编写及运行R语言代码的替代工具平台

在前文中,介绍了两种运行R语言代码的方式。

使用操作系统终端。

使用R语言基础版本中的开发环境。

对于有经验的R语言用户来说,第一种方式非常方便,尤其在执行明确的分析任务时颇具优势。这类任务的特点如下。

按一定顺序执行不同语言的脚本。

执行文件系统相关的操作。

对于第二种方式,前面已经介绍过,R语言存在着很多更优秀的替代工具平台。因此,在开始编写更多R语言代码之前,读者有必要仔细地了解一下这些替代工具平台。

首先,需要说明两点。

替代工具平台并非文本编辑器类的应用程序,而是具有R语言控制台和额外的代码执行工具的程序。与文本编辑器类的应用程序不同,替代工具平台更倾向于一个IDE,因为它能够给一门新语言的学习者带来更好、更全面的用户体验。

这里不会列举所有的工具平台,只列举出在R语言社区的讨论和实践中被提及非常多的一些工具平台。当然,也许存在着更好的工具平台,但可能尚未流行起来。

在这里,要列举和介绍的工具平台如下。

RStudio。

Jupyter Notebook。

Visual Studio。

1.RStudio(适用于所有系统)

RStudio是在R语言社区中非常受欢迎的一个IDE。RStudio之所以受欢迎是因为该平台的R语言专属性(这使其有别于本书即将介绍到的另外两个工具平台),及其与R语言社区中的一些热门程序包的完美集成。

RStudio除了涵盖在探讨安装R语言基础版本开发环境时所涉及的所有基本功能,还附带很多用于辅助编码和最大化提高开发效率的其他有帮助的组件。下面仅列出其中的部分组件。

文件系统浏览器:用于浏览当前的工作目录并与之进行交互。

文件导入向导:用于方便、快速地导入数据集。

绘图面板:用于显示和操纵代码运行所生成的数据可视化绘图。

变量资源管理器:用于显示和操纵代码运行所生成的值与数据。

类似电子表格的数据查看器:用于显示代码运行所生成的数据集。

RStudio还包括很多增强的特性,包括代码自动补全、内置函数帮助及支持多重窗口监视的可拆分窗口等,具体如图1-4所示。

图1-4

最后必须提到的就是RStudio对于其他热门R语言程序包的集成。RStudio通过附加控件或预定义的快捷方式来集成这些热门R语言程序包,举例如下。

Markdown程序包:用于集成R语言代码(更多内容请见第13章)。

dplyrfor程序包:用于进行数据操作(更多内容请见第2章)。

Shiny程序包:用于R语言的Web应用开发(更多内容请见第13章)。

2.Jupyter Notebook(适用于所有系统)

Jupyter Notebook原本是针对Python的一个扩展,被用于实现交互式数据分析和可复用的工作流。其工作原理是将代码和代码的输出结果(包括图形和表格)放到同一份文件中,以便开发人员和其他后续读者(例如客户)按照代码中数据分析的逻辑和过程,逐步得出结果。

不同于RStudio,Jupyter Notebook没有文件系统浏览器,也没有变量资源管理器。不过它仍然是一个不错的选择,尤其是在需要将分析工作过程分享出去的时候。

由于Jupyter Notebook最初是Python语言的一个扩展,因此它实际是用Python语言开发的。这意味着,除了安装R语言之外,还需要安装Python语言才能运行Jupyter Notebook工具。欲查找Jupyter Notebook的安装说明,可以查看Jupyter Notebook的在线文档。

在完成Jupyter Notebook的安装之后,还需要安装R语言内核组件,然后才能够在Jupyter Notebook上运行R语言代码。安装R语言内核的方法可参考该组件主页。

3.Visual Studio(只适用于Windows)

Visual Studio是一个非常流行的开发工具,主要用于进行Visual Basic和C++开发。由于微软公司近几年对R语言的兴趣浓厚,这款IDE(指Visual Studio)通过使用R语言扩展工具也实现了R语言开发支持,如图1-5所示。

该扩展工具能够将R语言常用的一些特性添加到非常成熟的开发平台(例如Visual Studio)中。目前,该IDE的主要局限在于:它只能用于Windows系统。

此外,Visual Studio是免费的(至少社区版是免费的)。详细的安装指南可参见其官网。

图1-5