plot(rnorm(1000))
(居然没提供R语言的选项……)系统会为你画一张图这是一张含有1000个按正态分布排列的随机数的图R的环境到此结束,下面我们回到Rstudio来看看我们可以看到Rstduio有四个区域分别的功能是左上角,是Rstudio的脚本区域(但是远不止写脚本那么简单,其实还可以用来写Rmarkdown,RNotebook等,这些是很实用的插件,但这里我们不详谈)左下角,是命令行(command)窗口,刚才我们在R中展示的窗口就是这个右上角是R的目前的变量环境右下角是R的画图,装包,浏览文件的区域可以看出,综合的功能是比R要强大很多的,而且根据我们网站组的大佬的反应,这玩意其实是一个html……也就是说你会JS你就可以恶搞它的界面啦对了,在你关掉R/Rstudio的时候,系统会问你是否要保存空间映像,那个其实就是保存历史记录,方便以后继续使用而设置的一些基本的素养和操作R语言是一个统计语言统计数据离不开一个良好的用于储存的结构和标识我们会先从它的基本操作讲起,在其中夹杂着数据类型,数据框等大量的结构和细节首先说说帮助文档R语言和C++/python不一样,R语言非常琐碎,因此seek for help是必要的,但是R的official document很难懂,因此不推荐拿那个去当作你学习的教程我们推荐的是以下三种寻求帮助的命令help("function") or ?functionhelp.search("function") or ??functionexample("function")
第一个是查函数的帮助文档,第二个是以某一个function为关键字搜索帮助文档第三个会给出某一个函数的使用示例在对函数不熟悉的时候一定要学会使用它不管是什么样的计算机语言,赋值都是最基础的工作但是赋值符号不是C++里的=,而是<-,比如r <- 2
注意:用=赋值是不会被编译器报错的,但是由于这个语法不标准,所以有的时候会出问题随着赋值而来的就是数值运算,但是我们不强调那种单变元的数值运算,R有个很强大的功能是向量化操作(当然matlab也有)(向量理解为一系列变量的按序组合(比如数值向量可以理解为数列)就好)比如说给予五个人身高体重的例子,我们计算一个BMIA <- c(1.84,1.74,1.65,1.58,1.81)B <- c(86.2,65,51.5,45,56)BMI <- (B/(A^2))BMI
最后显示的结果是确实是一个向量注意:R语言构造向量的方法是c(...)注意:如果不输入某一个变量的名称,R默认是不显示结果的,因此我最后一行又加了一个BMI变量名显示它注意:我们推荐写多行R代码的时候使用脚本,之后在Rstudio中,脚本区域的右上角有三个按钮,第一个run是逐行运行代码,第三个source是运行全部代码(但是要在下拉框选择source with echo,否则依然显示不了结果),大家注意回去找找看注意:如果你真的点击了source去运行代码的话,可以在command区域看到这样的命令source('C:/Users/Asus/Desktop/A.R')
拿出来说的原因是想强调:如果你要输入一个文件路径,一定要输入正斜杠/,因为反斜杠是转义字符(escaped character),在""中间输入字符,如果想让它打印出",就可以输入\"我们回到向量这个问题上来常用的R的数据类型有三种:数字,字符,逻辑真假(当然还有个缺失值类型,我们在之后会说)因此我们也可以创建字符和逻辑向量关于字符向量,我们列举下面三个例子c("A","B","C")cat(c("A","B","C"))cat(c("A","B","C"),'\n')
显示的结果如下哎?二和三有什么区别吗?如果你在R中运行的话,第二行的命令是默认不换行的,所以就会出现的情况,不过在Rstudio里,这种情况得到了改善注意:cat是连接+输出的函数,而c只负责连接,在例子中,cat可以消除字符串的""符号你可以连接任何东西,包括向量注意:R的向量要求内部的所有元素数据类型相同如果通过cat/c连接两个不同数据类型的向量,系统会进行强制转换比如A <- c("A","B","C")B <- c(1,2,3)c(A,B)
结果留给大家自己观察(这里原来出了一处错误,已经修正,谢谢 @快走姑娘 提醒)和数值运算类比的就是逻辑运算,但是我不打算在这里先说这些伴随着向量的就是索引,目的自然是为了取用这些元素索引的方法是[],举2个例子A <- c("A","B","C")A[2]B <- c("A"=1,"B"=2,"C"=3)B["B"]
显示的结果如下注意:向量内的元素是有序的,这里A[2]索引的就是第二个,不是程序员认为的第三个注意:第二个例子中,我们相当于人工设置了索引(在python里,有个专门的数据结构叫字典(dict))为"A","B","C",它们叫这些变量的名称(name),一一对应1,2,3和自然索引1,2,3不同的是,这里的人工索引在查看变量的时候会显示注意:索引也可以索引一个向量,也就是索引多个元素(和matlab一样),比如说,试着运行一下下面这个命令
A <- c("A","B","C")A[c(2,3)]
结果留给你们自己去发现注意:索引也可以是负索引它不是python里“倒数第几个”的含义,它的意思是“索引除标记以外的所有元素”在数据清洗中非常常见,可以用一个例子去帮助理解
A <- c("A","B","C")A[-c(2,3)]
自己去敲敲代码看看结果吧注意:你甚至可以使用索引进行赋值,即使它已经超出了这个向量的长度,比如说A[7]="D"
那么,A这个时候第7个确实是字符D,但是原来的第4-6个呢?实际上它们是缺失值也就是NA至于缺失值是什么样的数据类型,这会在之后提到注意:对于名称,字符串中的""要求会放宽,也就是说,你还可以这么写B <- c(A=1,B=2,C=3)
结果是一样的对于我这种懒人来说,这可真是个福音下面我们说说矩阵和数组矩阵可以理解为二维的向量但是创建矩阵的参数就一下子多了很多,因此可能会稍有点难理解,我们用两组例子结束这一切第一组:S <- c(1,2,3,4,5,6,7,8,9)rnames <- c(1,2,3)cnames <- c("A","B","C")C=matrix(S,nrow=3,ncol=3,byrow=TRUE,dimnames=list(rnames,cnames))C=matrix(S,nrow=3,ncol=3,byrow=FALSE,dimnames=list(rnames,cnames))C=matrix(S,nrow=2,ncol=4,byrow=TRUE,dimnames=list(rnames,cnames))
显示的结果如下我改变的参数在byrow这里,它提示我们应该按行填充还是按列填充TRUE自然就是按行存储的意思Oh,第三个报错了,看一下报错信息data length [9] is not a sub-multiple or multiple of the number of rows [2]数据长度9不是行数2的因数或倍数哇哦,我有一些额外的发现报错信息的数字会用[]标识出来,是有意义的同时本身也不是特别难懂兴奋完之后,回到命令本身,参数解释如下:第一个是源向量第二个是nrow和ncol参数,row是行,col是列(column),代表需要组合的行数和列数第三个是byrow参数,上面已经解释过了第四个是dimnames,用于标记行名称和列名称我们可以看到,在矩阵里,名称就非常重要了,它更接近于我们平常做数据分析时所需要使用的表注意:看到那个TRUE了没,对比一下C里的true和python里的True就知道,R语言也是一个大小写敏感的语言因此要注意代码的严格的大小写注意:第三,四个参数不是必需的,第三个不写的话,默认是FALSE,也就是按列填充(和TeX的语法差别在于,可选不可选并不能通过直观的方式看出来,需要靠人的主观能动性去理解)注意:在dimnames里有一个list函数,这是为了创建列表,它的目的是把多个变量的集合聚合成为单个变量,这是为了方便给函数的参数提供值,传参时会经常用形式上倒没有太大的差别下面是第二个例子cbind(A=1:4,B=5:8,C=9:12)rbind(A=1:4,B=5:8,C=9:12)
显示的结果如下bind是捆绑的意思,cbind理解为“把列捆绑在一起”,所以提供的向量自然是列向量,那么对应的名称索引就是行索引同样的,rbind就是“把行捆绑在一起”注意:有的人会问[1,]和[,1]是什么?我们要强调,这种位置上的东西不管是名称还是数字,都是索引但是这是矩阵的索引,对于矩阵的索引,我们可以举几个例子
A=matrix(1:24,nrow=4,ncol=6)A[,6]A[3,]A[3,4]B=A[c(2,3),c(3,4)]Bdimnames(B)=list(c(1,2),c(1,2))B
显示的结果如下索引项中,第一个是行索引,第二个是列索引同样,你也可以给索引设置为向量在敲这个代码的时候,摸索了一个很有趣的用法我们注意到,B依然是一个矩阵,但是使用matrix是创建一个矩阵,如果我要修改B这个矩阵的参数怎么办呢?就可以使用paramater(B)=,其中paramater是在函数中的参数,可以通过这种方法赋值注意:1:4,5:8等等,这个是什么?根据例子可以看出,这会生成1:4的公差为1的等差数列你不用去担心看不懂,我会点出来,然后告诉你,这些有趣的用法在之后的笔记中会讲解到接着说数组,R中给的定义是多于2维的向量我们拿矩阵去做对比,对数组就很好理解了同样举个例子A <- c('A','B')B <- c(1,2,3)C <- c('!','@','#',')z <- array(1:24,c(2,3,4),dimnames=list(A,B,C))z
显示的结果如下我们可以看出,第三维是单独被拉出来的,第一二维就是行和列第三维我们一般称为页有了矩阵铺垫,这个每个参数的含义就好理解多了,但我们还是做一个简单的解释第一个paramater是源向量第二个是三维中每一维的长度第三个是每一维的名称注意:我还没有找到让数组元素按行填充的办法可能本身就没有设置吧注意:在介绍matrix函数的时候,每一个参数都是paramater=...的形式,但是这里似乎不是在R里,如果不加这样的形式,R会按默认的参数顺序设置,如果记不住就很容易乱使用这样的形式可以防止这个问题(同样在python,C++里也可以这么做,其中python里叫已知参数)当然不是因为它没有paramater,这只是写的人的习惯,因为这三个参数不容易混(性质完全不同),所以用熟的人自然不会再想着加paramater本身好的,问题来了,如果我是小白呢?我想加paramater怎么办?乖,让你的心到最开始的地方看看?小结再次强调,不要忽略所有注意的地方我已经写了很长时间了,但是实际上回到书本,其实只是书本一二两章的内容的部分还有很多有趣的东西还没有涉及到,因此这只是基本操作总览的第一部分我们会在之后的笔记涉及到剩下的部分下一节我们会说函数,常用函数集合,向量中的因子,排序,数据框,存储与导入外部数据等其余的基本操作感谢支持我的各位
笔芯~~
(图片来源网络,侵删)
0 评论